タグ別アーカイブ: PDF再利用

『AntennaHouse AHPDFXML 変換ライブラリ』の用途は?

『AntennaHouse AHPDFXML 変換ライブラリ』は PDF を XML に変換するライブラリです。お客様から、XML に変換することでどのような用途に利用できるか?との問い合わせを度々頂きます。

そこで今回は、XML 変換することで、どのような事が出来るのか、活用方法をいくつかご紹介致します。

  • PDF コンテンツの活用
    ・PDF に入っている画像を抜き出し、画像の活用。
    ・表だけを抜き出し、データベースへ転用。
  • 位置情報の取得で、意味のあるテキストを抜き出し
    ・帳票の決まった位置にあるテキストを取得して帳票の振り分けや、データベースへ転用。
  • PDF からの変換、再構築
    弊社 AHFormatter を合わせて利用することで、
    ・PDF から HTML、EPUB、DocBook 形式等への変換に利用。
    ・元の PDF のレイアウトを変更して再度 PDF の生成に利用。
  • PDF チェッカーとして活用
    ・出力した XML を比較して改定箇所のチェックに利用。
    ・フォント(フォントタイプ・サイズ)情報、版面のサイズを取得。

評価版をご用意しております。
AntennaHouse AHPDFXML 変換ライブラリ 評価版のお申し込み

是非使ってみてください。

AntennaHouse AHPDFXML 変換ライブラリ
http://www.antenna.co.jp/pdfxml/


「Antenna House AHPDFXML 変換ライブラリ V2.0」の利用例

「Antenna House AHPDFXML 変換ライブラリ V2.0」は、PDFファイルの内部データを、XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

「AHPDFXML形式」で表現された様々な情報から、必用な情報を読み取ることでPDFのデータを簡単に再利用できます。

  • 文字や画像の位置情報を利用することで、任意の範囲に含まれるデータを取り出せます。
    例えば、アンケートに使用したPDFの回答欄の文字列だけ取り出すことができます。
    例えば、特定の文字列や画像を含むPDFを探すことができます。
  • 表構造をデータベースに取り込むことにより、データのグループ化がおこなえます。
    PDFには表と言う概念はありませんが「AHPDFXML形式」は、表構造(行列及びセル)を生成します。
    これにより、文字としてでは無く、表としてデータを再利用できます。
    例えば、表構造をCSVに落とすことにより、表計算ソフトに取り出込めます。

XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
http://www.antenna.co.jp/pdfxml/


「Antenna House AHPDFXML 変換ライブラリ V2.0」の概要

「Antenna House AHPDFXML 変換ライブラリ V2.0」は、PDFファイルの内部データを、XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

PDFのデータは、文字、線、画像などが配置されているだけで、文字は見た目順に格納されているとは限らず、段落や表と言う概念もありません。本ライブラリでは、PDFのデータを単にXML化するだけで無く、文書構造を生成して、再利用に適したXMLデータを出力します。「AHPDFXML形式」として出力される主な情報は次の通りです。

  • 段落、行、パラグラフなどの文書情報を生成。
  • 線画情報から、水平/垂直の線分を抜き出して、表構造(行列及びセル)を生成。
  • 文字を見た目順に再配置してから出力。
  • 文字情報は、位置、フォント情報などを出力。
  • 画像情報は、位置、種別などを出力。
  • 画像本体は外部ファイルとして出力。

XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
http://www.antenna.co.jp/pdfxml/