『Antenna House AHPDFXML 変換ライブラリ』は、PDFファイルの内部データを、
XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。
このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。
PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。
『Antenna House AHPDFXML 変換ライブラリ』には、コマンドライン版アプリケーションが付属しています。
今回は”AHPDFXMLCmd.exe”について書いてみたいと思います。
標準の引数は次の通りです。
- -i PDFファイル
入力PDFファイルのパスを指定します。(必須) - -password パスワード
入力PDFにパスワードが設定されている場合、この引数で指定します。 - -o 出力先フォルダ
AHPDFXML形式を出力するフォルダのパスを指定します。(必須)
保存するしおり外部ファイルの形式を指定します。- このフォルダには、カタログXML, ドキュメントXML, スタイルXML, アウトラインXML, 画像ファイルなどが出力されます。
- -p 接頭子
AHPDFXML形式ファイルの接頭子を指定します。(必須) - -start 開始ページ
変換対象とする、開始ページを指定します。
省略された場合や 0以下の場合は、先頭ページからとみなされます。 - -end 終了ページ
変換対象とする、終了ページを指定します。
省略された場合や実際のページ数より大きい場合は最終ページまでとみなされます。
変換オプションの引数(一部)は次の通りです。
- -piece
文字情報(ahp:run)を、1文字単位で出力します。
文字単位でレイアウト座標を得たい場合などで使用します。 - -cid
文字情報(ahp:run)の要素に、PDFのキャラクタIDを出力します。 - -notable
表の解析を行いません。表情報(ahp:table)も出力されません。 - -emf
線画をEMFに変換します。
複数の線画をまとめられる場合は、まとめてPNGに変換します。
PDFのページ中に表が存在する場合などは、まとめてPNGに変換することはしません。
この条件が設定されていない場合は、線画はSVG形式に変換されます。
呼び出し例は次の通りです。
- AHPDFXMLCmd.exe -i input.pdf -o output -p pdfxml -piece
- -i input.pdf : input.pdf を読み込みます。
- -o output : AHPDFXML形式を output フォルダ下へ書き出します。
- -p hoge : 書き出されるファイルの接頭子です。
- -piece : 文字情報を1文字単位で出力します。
AHPDFXML形式の利用例として『サンプルXSLTスタイルシート』をご用意しております。
XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。
製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。
評価版のお申込
評価版のお申込ページ