『Antenna House AHPDFXML 変換ライブラリ』は、PDFファイルの内部データを、
XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。
このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。
PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。
今回は”AHPDFXML形式”として出力される文書構造について書いてみたいと思います。
- セクション要素
セクション要素の属性は、矩形情報、段組み情報、縦書き/横書き情報です。
セクション要素は、フレーム要素を含みます。
段組み数は、テキストフレーム要素の配置から判断します。 - フレーム要素
フレーム要素の属性は、フレーム種別、矩形範囲、ファイルIDです。
フレーム種別には、テキスト、表、画像、テキストボックスがあります。
テキストフレームは段落要素を含みます。
画像フレームには、カタログファイルに定義されたファイルのIDが指定されています。 - 段落要素
段落要素の属性は矩形範囲、段落スタイルIDです。
段落スタイルには、先頭行インデント、左インデント、右インデントの情報があります。
段落要素は、行要素を含みます。
包含する行要素の開始位置、終了位置から、段落要素を生成しています。 - 行要素
行要素の属性は矩形範囲です。
行要素はテキスト要素を含みます。
包含するテキスト要素からベースラインを判断して、テキスト行を生成しています。 - テキスト要素
テキスト要素の属性は、矩形範囲と文字スタイルIDです。
文字スタイルには、文字の大きさ、文字の色、文字のフォント、文字修飾(bold/italic、網かけ)の情報があります。 - 表要素
表要素の属性は、矩形情報です。
表要素は、表の行要素を含みます。 - 表の行要素
表の行要素の属性は、矩形情報です。
表の行要素は、セル要素を含みます。 - セル要素
セル要素の属性は、矩形情報とスタイルIDです。
セル要素は、段落要素を含みます。
PDF中の線画情報から、水平/垂直の線分を抜き出して、セルを生成しています。
AHPDFXML形式の利用例として『サンプルXSLTスタイルシート』をご用意しております。
XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。
製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。
評価版のお申込
評価版のお申込ページ