「Antenna House AHPDFXML 変換ライブラリ V2.0」の出力例 (文字)

「Antenna House AHPDFXML 変換ライブラリ V2.0」は、PDFファイルの内部データを、XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。
このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。
PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

今回は”文字”がAHPDFXMLに出力される例を見てみます。
変換元PDFのプレビューは次のような感じです。
ahpdfxml_pdf_1030

上記のPDFをAHPDFXML形式に変換した結果です。
フレーム情報(ahp:frame)、段落(ahp:p)、行(ahp:line)、文字(ahp:run)が出力されています。

ahpdfxml_xml
社内で試験用に使用している簡易ビューアの表示です。

フレーム(ahp:frame)の座標をマーキングした表示です。

ahpdfxml_frame
文字(ahp:run)の座標をマーキングした表示です。

ahpdfxml_run1

文字(ahp:run)の座標をマーキングした拡大表示です。
文字列”カレー”の文字のスタイルID(ahp:s-id)”s8″、Zオーダー(ahp:z-order)”22″です。

ahpdfxml_run2

スタイル情報を、文字のスタイルID(ahp:s-id)”s8″で参照すると、文字属性がわかります。

ahpdfxml_style
AHPDFXMLに出力された文字情報には、位置情報が含まれます。位置情報を利用することで、任意の範囲に含まれる文字を取り出せます。

XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
https://www.antenna.co.jp/pdfxml/