「Antenna House AHPDFXML 変換ライブラリ V2.0」は、PDFファイルの内部データを、XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。
このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。
PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。
今回は”表”がAHPDFXMLに出力される例を見てみます。
変換元PDFのプレビューは次のような感じです。
上記のPDFをAHPDFXML形式に変換した結果です。
表(ahp:table)、行(ahp:row)、セル(ahp:cell)が出力されています。
社内で試験用に使用している簡易ビューアの表示です。
表(ahp:table)、行(ahp:row)、セル(ahp:cell)座標をマーキングした表示です。
文字(ahp:run)の座標をマーキングした表示です。
文字列”ROOM”の文字”R”の文字のスタイルID(ahp:s-id)”s10″、Zオーダー(ahp:z-order)”457″です。
スタイル情報を、文字のスタイルID(ahp:s-id)”s10″で参照すると、文字属性がわかります。
AHPDFXMLに出力された表構造をデータベースに取り込むことにより、データのグループ化などがおこなえます。
AHPDFXMLに出力された表構造をCSV(表の項目値をカンマ区切りで表すテキストファイル)に落とすことにより、表計算ソフトなどで利用可能となります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。
製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。
評価版のお申込
評価版のお申込ページ
Webページ
https://www.antenna.co.jp/pdfxml/