カテゴリー別アーカイブ: 使用方法・利用例

「Antenna House AHPDFXML 変換ライブラリ V2.0」の出力例 (文字)

「Antenna House AHPDFXML 変換ライブラリ V2.0」は、PDFファイルの内部データを、XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。
このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。
PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

今回は”文字”がAHPDFXMLに出力される例を見てみます。
変換元PDFのプレビューは次のような感じです。
ahpdfxml_pdf_1030

上記のPDFをAHPDFXML形式に変換した結果です。
フレーム情報(ahp:frame)、段落(ahp:p)、行(ahp:line)、文字(ahp:run)が出力されています。

ahpdfxml_xml
社内で試験用に使用している簡易ビューアの表示です。

フレーム(ahp:frame)の座標をマーキングした表示です。

ahpdfxml_frame
文字(ahp:run)の座標をマーキングした表示です。

ahpdfxml_run1

文字(ahp:run)の座標をマーキングした拡大表示です。
文字列”カレー”の文字のスタイルID(ahp:s-id)”s8″、Zオーダー(ahp:z-order)”22″です。

ahpdfxml_run2

スタイル情報を、文字のスタイルID(ahp:s-id)”s8″で参照すると、文字属性がわかります。

ahpdfxml_style
AHPDFXMLに出力された文字情報には、位置情報が含まれます。位置情報を利用することで、任意の範囲に含まれる文字を取り出せます。

XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
http://www.antenna.co.jp/pdfxml/


DITA の便利ツール

DITA でオーサリングをする際、初めにコンテンツ構造の計画を立てていると思います。
そして計画に対しレビューを行い、コンテンツの全体を把握した後に DITA ファイルを作成。このファイルを作成する作業がなかなか大変。
しかも一度 DITA ファイルを作成してしまうと手直しがまた大変。
コンテンツは大量にあるのでファイルを探すだけで一苦労です。

この作業が自動化できたらいいな、そんなことを考えたことはありませんか?

その悩みを解消してくれるツールがこの「ATL to DITA」(仮)です。

1.Excel ファイルでコンテンツ構造の計画を立てます。
グループ(第一階層)や階層レベル、chunk、タイトル、メタデータの情報を記載していきます。

atl_excel

Excel 画面

2.ツールの画面で Excel ファイルや出力先などを指定します。

atl_gui1

ツール画面1

atl_gui2

ツール画面2

※画面は開発中のものです

3.出力先のフォルダに DITA ファイルが作成されます。

atl_out1

出力ファイル1

atl_out2

出力ファイル2

atl_out3

出力ファイル3

階層に応じたマップが生成され、トピックには予め Excel で記載したタイトルやメタデータが挿入されます。

atl_out4 atl_out5

4.計画に手直しが入った場合はもう一度ツールを実行してください。

如何でしょうか?ちょっとした機能ですが、なかなか便利ですよね!

このツールは Java、Ant、XSLT を組み合わせて構成しています。

atl_architecture

構成

皆様は日々の業務でこういうものがあったら便利なのにな、といったものはございますか?
こういった便利なツールのご要望がございましたらアンテナハウスまでご相談ください!


focheck を使って XSL-FO のマークアップの妥当性を検証する

海外営業担当です。
本日は弊社アイルランドの社員 Tony Graham が開発しました focheck についてご紹介させていただきます。oXygen XML Editor をお使いの方必見です。最後までお読みいただくと focheck の使い方がわかります。ぜひお使いになってください。

XSL-FO を oXygen XML Editor でチェック

XSL-FO は、まずフォーマットオブジェクトとそのプロパティを表すために設計されました。 スキーマに準拠するようには設計されておらず、検証技術を考慮して設計されていませんでした。 その結果、XSL-FO ドキュメントの正当性をチェックする最良の方法は、AH Formatter でフォーマットしてログファイルを確認することでした。
Antenna House の focheck フレームワーク は、oXygen XML Editor を使用中に、Antenna House 拡張機能も含め、XSL-FO ファイルをチェックして修正することをついに可能としました。

フォーマッティングオブジェクトの構造

それぞれの FO に含めることができるものを定義する XSL 1.1 勧告 のコンテンツモデルは、単純です。 しかし、勧告にある記述は、しばしばコンテンツモデルに含まれない FO をも許容しています。
fo:marker はコンテンツモデルには表示されませんが、ほとんどの(ただしすべてではありません)FO の最初の子として使用が可能です。

1-focheck-marker.png
fo:change-bar-begin と fo:change-bar-end は、コンテンツモデルには表示されませんが、ほぼどこでも許可される、 地点を定義する  FO です。

2-focheck-change-bar-begin.png

fo:change-bar-begin と fo:change-bar-end には、スキーマで表現できないプロパティの制約もあります。
XSL 1.1 には、一部のFOが特定のタイプのFOの祖先または子孫として許可されないという制約も更に含まれています。 たとえば、fo:footnote は子孫として別の fo:footnote を持つことはできません。 明らかに、fo:footnote の祖先を持つこともできません。

3-focheck-footnote.png

プロパティ値

各 XSL-FO プロパティで許可されるタイプは、XSL 1.1 勧告で定義されています。 ただし、XSL-FO ファイルのプロパティ値は、必ずしも単一の値であるとは限りません。 ほとんどのプロパティは、 ‘2pt + 6em’ のような式にすることもできます。 AH Formatter は  ‘2pt + 6em’ を評価してから結果が正しいかどうかを判断する必要があります。 focheck は、AH Formatter のように、式を解析するパーサーを含んでいます。 focheck はプロパティ値の式を評価し、結果のタイプをチェックします。 ‘ from-table-column()’ などの XSL 1.1 で定義されているすべての関数名や Antenna House 拡張機能を認識し、パラメータをチェックしますが、まだ関数を評価していません。 AH Formatter とは異なり、focheck は、 ‘font-family’ や  ‘border’ など、異なる構文を使用するプロパティを一部解析しません。

4-focheck-property.png

警告を追加

focheck は、エラーではない条件についても警告することができるので、AH Formatter には問題はありませんが、おそらく意図したものではありません。 たとえば、fo:flow または fo:static-content に非標準の  ‘flow-name’ 値があり、 ‘region-name’ の値が一致するページ領域がない場合は、エラーではありません。fo:flow または fo:static-content は単に使用されないだけです。 これは設計によってというよりも偶発的に発生する可能性が高いため、focheck はこれらの不一致と、決して使用されない ‘region-name’ の値について警告します。

5-focheck-flow-name.png

XSL-FO のリストは、’provisional-label-separation’ と ‘provisional-distance-between-starts’ プロパティをfo:list-blockに設定し、なおかつ 各 fo:list-item-label  に ’end-indent’ を、各 fo:list-item-body に ’start-indent’ を設定してリスト項目のラベルと本文との間隔を指定します。 これらのいずれかが見つからない場合は、エラーにはなりません。 AH Formatter は、XSL 1.1 勧告に従って、各プロパティに対して継承または初期値を使用します。 しかし、これはおそらく期待したものではないので、プロパティのいずれかが見つからないときに focheck が警告します。

6-focheck-list.png

オーサリングのサポート

XSL-FO は手作業で作成することを目的としたものではありません。 ほとんどの人は XSLT を使用して XSL-FO を生成しています。開発者以外や、サポートスタッフあるいは AH Formatter をテストまたは文書化している人以外に手作業で XSL-FO をオーサリングする必要のある人はほとんどいません。 ほとんどの人にとって、XSL-FO をオーサリングする唯一の理由は、後で XSLT 変換の出力として自動的に生成されるものを試作することです。

XSL-FO をオーサリングする必要がある場合、focheck は、現時点で許可されている FO またはプロパティのリストを提供してくれるので、役に立ちます。

7-focheck-structure-editing.png

また、FO 又はプロパティを説明するポップアップツールチップを表示することもできます。

8-focheck-tool-tip.png

また、focheck では問題の報告だけでなく、XSL-FO の一般的な問題をいくつか修正する「クイック修正」も行うことができるようになっています。例えば、上記のような警告があれば、クイック修正をします。

focheck を入手する

focheck は、2015年にリリースされた oXygen 17 以降の oXygen XML Editor にバンドルされています。ただし、oXygen の focheck バージョンは 2015 年以降に更新されていません。最新の focheck バージョンを入手して、 oXygen アドオンとして focheck をインストールすることができます。
GitHub から focheck をインストールするには:

  1.  [ヘルプ] メニューから [新しいアドオンをインストールする] を選択します。 9-focheck-help-new-add-on-install.png
  2. アドオンの場所にhttps://github.com/AntennaHouse/focheck/raw/master/add-on-ja.xml を入力し、「focheck」を選択してインストールを続行します。10-focheck-new-add-on-install.png

仕組みの説明

focheck は、RELAX NG スキーマと Schematron を oXygen フレームワークに同梱しています。 RELAX NG スキーマは、FO の構造に関する規則の大部分、およびプロパティがどの FO に適用されるかの規則を提供しています。 Schematron は、プロパティ値の解析など、RELAX NG で表現できない制約をチェックします。 パーサーは、XSLT として実装され、それは REx パーサジェネレータによる言語構文用の EBNF のバージョンから生成しています。
正確度を保証するために、RELAX NG、Schematron for XSL 1.1 FO およびプロパティの大部分は、XSL 1.1 勧告の XML バージョンにある XSLT を実行することによって自動的に生成します。

ライセンス

focheck はオープンソースであり、Apache License、Version 2.0 の元、ライセンス許容されています。

アンテナハウス海外サイト
http://www.antennahouse.com/
http://rainbowpdf.com/

AH Formatter関連ページ:focheck(oXygen アドオン) – XSL-FO と AH Formatter 拡張仕様のバリデータ


『AntennaHouse AHPDFXML 変換ライブラリ』の用途は?

『AntennaHouse AHPDFXML 変換ライブラリ』は PDF を XML に変換するライブラリです。お客様から、XML に変換することでどのような用途に利用できるか?との問い合わせを度々頂きます。

そこで今回は、XML 変換することで、どのような事が出来るのか、活用方法をいくつかご紹介致します。

  • PDF コンテンツの活用
    ・PDF に入っている画像を抜き出し、画像の活用。
    ・表だけを抜き出し、データベースへ転用。
  • 位置情報の取得で、意味のあるテキストを抜き出し
    ・帳票の決まった位置にあるテキストを取得して帳票の振り分けや、データベースへ転用。
  • PDF からの変換、再構築
    弊社 AHFormatter を合わせて利用することで、
    ・PDF から HTML、EPUB、DocBook 形式等への変換に利用。
    ・元の PDF のレイアウトを変更して再度 PDF の生成に利用。
  • PDF チェッカーとして活用
    ・出力した XML を比較して改定箇所のチェックに利用。
    ・フォント(フォントタイプ・サイズ)情報、版面のサイズを取得。

評価版をご用意しております。
AntennaHouse AHPDFXML 変換ライブラリ 評価版のお申し込み

是非使ってみてください。

AntennaHouse AHPDFXML 変換ライブラリ
http://www.antenna.co.jp/pdfxml/


Office Server Document Converter の活用法(2)

■ TextPorterと組み合わせた文書管理システム

企業や組織においては、毎日、膨大な数の文書が、Microsoft Office で作られています。それを紙に印刷していたのでは、保管も閲覧も大変です。そこで、これらの文書を電子文書のままファイリングし、管理する文書管理システムが作られています。
ここで、Office Server Document Converter と、弊社のサーバ製品の1つである TextPorter が活躍しています。TextPorter は、Microsoft Office 文書やPDFから、テキストを抽出する製品です。

システムのイメージは、
Office Server Document Converter 活用例
にある
サムネイルサーバ
を発展させたものと思っていただけるといいです。

Office Server Document Converter によって、文書からサムネイルを生成することで、ファイル名だけではわかりにくい文書の見分けも簡単にできるようになります。
そして、TextPorter で文書からテキストを抽出して、全文検索システムで検索できるようにしておくことで、目的の文書をすばやく探し出して、そのサムネイルをみて、実際の文書を引っ張り出せるようにするわけです。

TextPorterに関する詳しい情報は、
http://www.antenna.co.jp/axx/
を、ぜひ、ご覧ください。

〒103-0004
東京都中央区東日本橋2-1-6 東日本橋藤和ビル5F
アンテナハウス株式会社
◆ご購入に関するお問い合わせ(祝日を除く月~金曜日9:30~18:00)
TEL : 03-5829-9021
FAX : 03-5829-9023
E-mail:sis@antenna.co.jp
URL : http://www.antenna.co.jp/

Office Server Document Converter は、Microsoft Office, PDF などのファイルを、PDF, Flash, SVG, 各種画像形式にダイレクトに変換する変換エンジンです。 ダイレクト変換の意味は、たとえば、Microsoft Office がない環境でも、ファイルさえあれば、それをダイレクトに内容を見える形式に変換できるのです。ダイレクト変換には、Microsoft Office のライセンスも不要です。
Office Server Document Converter は、ダイレクト変換というユニークさが評価され、多くのウェブサービス、パブリッククラウド、プライベートクラウドなどで利用されています。

Office Server Document Converter に関する詳しい情報は、
Office Server Document Converter
を、ぜひ、ご覧ください。

評価版もご用意しております。
Office Server Document Converter 評価版のお申し込み
から、お申し込みください。


Office Server Document Converter の活用法(1)

■ ファイルの無害化

Office Server Document Converter は、Microsoft Office 文書の変換においてマクロを実行しません。 したがって、マクロ内に不正なコードが合った場合にもその実行は行われずに PDF や画像、SVG, Flash といった形式のファイルを生成できます。
PDF に関しても Script を実行することはないので画像や SVG, Flash といった形式のファイルを生成できます。また、PDF から PDF への変換も可能です。
企業ユーザ様、特にグローバル企業では、様々なファイルを日々受け取っていることと思われます。そのような場合でもよりセキュアな状態でファイルを取り扱うことが可能となります。
また、官公庁や学校等で使用するファイルに関しても、Office Server Document Converter でいろいろな形式に変換することにより、より確実に無害化されたファイルを取り扱えるようになります。

Office Server Document Converter:PDF生成サーバ

〒103-0004
東京都中央区東日本橋2-1-6 東日本橋藤和ビル5F
アンテナハウス株式会社
◆ご購入に関するお問い合わせ(祝日を除く月~金曜日9:30~18:00)
TEL : 03-5829-9021
FAX : 03-5829-9023
E-mail: sis@antenna.co.jp
URL : http://www.antenna.co.jp/

Office Server Document Converter は、Microsoft Office, PDF などのファイルを、PDF, Flash, SVG, 各種画像形式にダイレクトに変換する変換エンジンです。 ダイレクト変換の意味は、たとえば、Microsoft Office がない環境でも、ファイルさえあれば、それをダイレクトに内容を見える形式に変換できるのです。ダイレクト変換には、Microsoft Office のライセンスも不要です。
Office Server Document Converter は、ダイレクト変換というユニークさが評価され、多くのウェブサービス、パブリッククラウド、プライベートクラウドなどで利用されています。

Office Server Document Converter に関する詳しい情報は、
Office Server Document Converter
を、ぜひ、ご覧ください。

評価版もご用意しております。
Office Server Document Converter 評価版のお申し込み
から、お申し込みください。


Web Interface for OSDC のリリース

Web Interface for OSDC』は、サーバ上のファイル変換ソフトをインターネット経由で遠方のクライアントから簡単に使用できる便利なソフトウェアです。サーバ側とクライアント側のパソコンに必要なソフトをインストールするだけで、新規にプログラムを開発することもなく、すぐに運用を開始できます。
変換には、『Office Server Document Converter V6.1』以降で使用できます。

インターネット経由でサーバ上のファイル変換ソフトにリクエストを送信し、結果をクライアントで受け取る方式です。クラウドを利用した大規模な Web サービスシステムも簡単に構築できます。

サーバ側とクライアント側のパソコンに必要なソフトをインストールするだけで、すぐに運用を開始できます。クライアントからのリクエストは『Office Server Document Converter』のコマンドラインインターフェイスと同じパラメータを用いたバイナリを提供します。コマンドのサンプルも多種ご用意しています。

Web Interface for OSDC』は、サーバプログラムとクライアントプログラム、フォルダ監視サービスから構成されます。各プログラムは Java で設計されており異なるプラットフォームの相互間でインターネットを超えて連携することができます。

【基本機能】

  • プログラムレスでサーバ運用が可能
  • 簡単なコマンドでリクエスト送信
  • Windows、Linux の相互間で通信
  • フォルダ監視サービスで更に簡単利用

詳しくは、Web Interface for OSDCをご覧ください。

〒103-0004
東京都中央区東日本橋2-1-6 東日本橋藤和ビル5F
アンテナハウス株式会社
◆ご購入に関するお問い合わせ(祝日を除く月~金曜日9:30~18:00)
TEL : 03-5829-9021
FAX : 03-5829-9023
E-mail: sis@antenna.co.jp
URL : http://www.antenna.co.jp/

Office Server Document Converter は、Microsoft Office, PDF などのファイルを、PDF, Flash, SVG, 各種画像形式にダイレクトに変換する変換エンジンです。 ダイレクト変換の意味は、たとえば、Microsoft Office がない環境でも、ファイルさえあれば、それをダイレクトに内容を見える形式に変換できるのです。ダイレクト変換には、Microsoft Office のライセンスも不要です。
Office Server Document Converter は、ダイレクト変換というユニークさが評価され、多くのウェブサービス、パブリッククラウド、プライベートクラウドなどで利用されています。

Office Server Document Converter に関する詳しい情報は、
Office Server Document Converter
を、ぜひ、ご覧ください。

評価版もご用意しております。
Web Interface for OSDC 評価版のお申し込み
から、お申し込みください。


SBC と OSDC の相違点

Server Based Converter V6.0 と Office Server Document Converter V6.1 の機能的な差はありません。Server Based Converter V6.0 MR3 と Office Server Document Converter V6.1 R1 は、ほぼ同じ Source で作成されております。その関係は、今後も販売終了まで継続されます。

Server Based Converter V6.0 と Office Server Document Converter V6.1 の違いは、

1)製品名称
2)一部モジュールの名称変更
3)製品カテゴリの追加
4)Flash出力版の廃止
5)Web Interfaceの追加

となります。

【一部モジュールの名称変更】
弊社別製品にて使用している同一名称のライブラリのバージョンが異なる場合があるため、問題が発生する場合がありました。この問題を解消するため Server Based Converter で使用している以下の名称を変更いたします。

対象ライブラリ

・Windows版

<変更前>
AHFontService14.dll
AHGraphicService11.dll
AHDMC13.dll
AHCommon13.dll
AHPDFLib12.dll

<変更後>
DfvAHFontService14.dll
DfvAHGraphicService11.dll
DfvAHDMC13.dll
DfvAHCommon13.dll
DfvAHPDFLib12.dll

・Linux版

<変更前>
libAHGraphicService.so
libGL.so
libOSMesa.so
libGLU.so
libAHDMC.so
libAHCommon.so
libAHPDFLib.so
libAHFontService.so.1.4
libPdfiumModule.so
<変更後>
libDfvAHGraphicService.so
libDfvGL.so
libDfvOSMesa.so
libDfvGLU.so
libDfvAHDMC.so
libDfvAHCommon.so
libDfvAHPDFLib.so
libDfvAHFontService.so.1.4
libDfvPdfiumModule.so

*法則としては、Windows版は、【Dfv】+【旧名称】となり、Linux版は【lib】+【Dfv】+【旧名称】となります。

【製品カテゴリの追加】
製品カテゴリを一部変更し、Microsoft Word/Excel/PowerPoint の各読込に限定(一部例外あり)した「Select 」版を設けます。
価格などは、こちらをご確認ください。

【Flash出力版の廃止】
Flash 出力版の販売終了しました。Flash 出力が必要な場合は、Professional 版をご購入ください。

なお、個別契約となる OEM(組込み)契約や ASP/SaaS 契約の場合は、そのご契約内容毎にこれからも販売していきます。

【開発環境の変更】
OSDC は、以下の開発環境で作成されています。

・Windows版

<C/C++>
Microsoft Visual C++ 2015 でビルドされています。SampleGUI を除き、MFC は使われていません。 呼び出し側のプログラムは、互換性のあるコンパイラをご使用ください。

<.NET Framework 4.0/4.5.x/4.6 (DfvDotNet40Ctl60.dll) VisualStudio 2010>
VisualStudio 2012
VisualStudio 2013
VisualStudio 2015

<JAVA>
Java SE 8

・Linux版

<C/C++>
gcc 4.8

<JAVA>
Java SE 8

*動作には、libc.so.6(glibc-2.17), libstdc++.so.6 で、これらとバイナリ互換性があるライブラリが必要です。
*Linux版に関しては、Distribution を指定しての動作保証はしておりませんが、OSDC に必要な開発環境の入手が難しい場合は、CentOS7以降を推奨いたします。

【Web Interface for OSDC】
インターネットでプログラムレスの変換を実現できる『Web Interface for OSDC』を同時に販売しまた。

〒103-0004
東京都中央区東日本橋2-1-6 東日本橋藤和ビル5F
アンテナハウス株式会社
◆ご購入に関するお問い合わせ(祝日を除く月~金曜日9:30~18:00)
TEL : 03-5829-9021
FAX : 03-5829-9023
E-mail: sis@antenna.co.jp
URL : http://www.antenna.co.jp/

Office Server Document Converter は、Microsoft Office, PDF などのファイルを、PDF, Flash, SVG, 各種画像形式にダイレクトに変換する変換エンジンです。 ダイレクト変換の意味は、たとえば、Microsoft Office がない環境でも、ファイルさえあれば、それをダイレクトに内容を見える形式に変換できるのです。ダイレクト変換には、Microsoft Office のライセンスも不要です。
Office Server Document Converter は、ダイレクト変換というユニークさが評価され、多くのウェブサービス、パブリッククラウド、プライベートクラウドなどで利用されています。

Office Server Document Converter に関する詳しい情報は、
Office Server Document Converter
を、ぜひ、ご覧ください。

評価版もご用意しております。
Office Server Document Converter 評価版のお申し込み
から、お申し込みください。


PDFをWordやExcelに変換したいけれど、どんな製品がいいのかよく分からない…(2)

PDFを再利用する場合、元となるPDFは内容によって以下の2種類に分けることができます。

1)テキストが含まれているPDF
2)テキストが含まれない画像だけのPDF

1)の「テキストが含まれているPDF」とは、WordやExcelなどで文字入力しPDF化したものが該当します。
このようなPDFからの変換には、『瞬簡PDF 変換 9』が適しています。

瞬簡PDF 変換 9』は、PDFにテキスト・データが含まれていればそれを解析してWordやExcelに変換します。テキスト・データをそのまま変換するため文字化けしたりすることなくWordやExcel形式に移して再利用可能になります。

変換されたいPDFにテキスト・データが含まれるかどうかは、Adobe Reader などでPDFを表示して[編集]メニューから[すべて選択]をクリックしてみてください。
テキスト・データが以下のように反転表示されれば、テキストが含まれるPDFだと判別できます(※)。

pdf

テキストをすべて選択

 

※ スキャナーで作成された画像には、スキャナーがOCR処理をかけてテキスト・データをPDFに埋め込むことがあります(透明テキストつきPDF)。この場合は同じようにテキスト部分が反転して表示されます。

2)の「テキストが含まれない画像だけのPDF」とは、紙の書類をスキャナーで読み取ってPDF化したものなどが該当します。
このようなPDFは文字と見える部分も画像でしかないため、そのままWordやExcel形式に変換しても編集のできない画像が貼り付きます。
このようなデータに対しては「OCR」といって画像から文字を認識する機能を使うことでテキスト・データを取り出すことができます。ただし、OCR処理では画像の状態により文字が正しく認識できず、文字化けしてしまうことがあるため注意が必要です。

紙に印刷された内容をWordやExcelで再利用されたい場合は、『瞬簡PDF OCR』が適しています。

瞬簡PDF OCR』はOCR専用製品で、スキャナーからの直接読み込みにも対応しています。
読み込んだ画像はOCR処理し、誤認識した文字を画面上で修正したり編集したりしながら、変換結果に反映させることができます。
(製品の仕様上、常にOCR処理をかけるため、テキスト・データがあらかじめ含まれているPDFを変換する用途には適しません。)

なお、『瞬簡PDF 変換 9』にもOCR機能があり、画像データからテキスト・データを認識して変換することができます。
ただし、スキャナーからの読み込み機能や誤認識した文字を画面上で修正する機能はありません。

瞬簡PDF OCR』は紙の書類の再利用をされたい場合に適しているのに対し、『瞬簡PDF 変換 9』は内容に関わらず複数のPDFを一括して変換されたいような場合に適していると言えます。

どういったPDFを再利用されたいかによって、いずれの製品を選択するかご検討いただければ幸いです。

PDFをWordやExcelに変換したいけれど、望み通りに変換してくれるか心配…

PDFをWordやExcelに変換したいとお考えの場合、どれだけ正確に変換できるかが気になることと思います。
上記2つの製品にはそれぞれ体験版をご用意しておりますので、その変換精度や使い勝手を事前にご確認いただくことができます。

ただし、体験版では以下のような制限がありますので、あらかじめご了承ください。

  • インストールしてから 15日を過ぎると利用できなくなります。
  • ひとつのPDFについて、3ページまで変換可能です。
  • 評価以外の目的で日常業務に利用することはできません。

体験版に関する詳細は、『瞬簡PDF 変換 9 体験版のお申し込み』、または『瞬簡PDF OCR 体験版のお申し込み』をそれぞれご参照ください。


「Antenna House AHPDFXML 変換ライブラリ V2.0」の利用例

「Antenna House AHPDFXML 変換ライブラリ V2.0」は、PDFファイルの内部データを、XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

「AHPDFXML形式」で表現された様々な情報から、必用な情報を読み取ることでPDFのデータを簡単に再利用できます。

  • 文字や画像の位置情報を利用することで、任意の範囲に含まれるデータを取り出せます。
    例えば、アンケートに使用したPDFの回答欄の文字列だけ取り出すことができます。
    例えば、特定の文字列や画像を含むPDFを探すことができます。
  • 表構造をデータベースに取り込むことにより、データのグループ化がおこなえます。
    PDFには表と言う概念はありませんが「AHPDFXML形式」は、表構造(行列及びセル)を生成します。
    これにより、文字としてでは無く、表としてデータを再利用できます。
    例えば、表構造をCSVに落とすことにより、表計算ソフトに取り出込めます。

XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
http://www.antenna.co.jp/pdfxml/


Pages: Prev 1 2 3 4 5 6 7 8 9 10 11 Next