« 2005年10月30日 | メイン | 2005年11月01日 »
2005年10月31日
PDFからXMLへのデータ変換(3)
PDFからXMLへのデータ変換の例として、最近、アンテナハウスが、あるお客様向けに開発したプログラムのあらましをご紹介します。
これは、固定レイアウト帳票のPDFファイルから、各ページの指定位置の項目の情報を取り出して、結果をXMLファイルにするというものです。
用途は、取引先から毎日膨大な量の帳票データがPDFで送られてくるのですが、その帳票PDFデータの中の一部の情報を取り出して、データベースに蓄積して管理したい、ということです。
①オリジナルの帳票を簡単な図で表すと次のようになります:
②やりたいことは、この中の一部の項目の情報を取り出す:
解決策は次のようになります。
①PDF Viewerで、帳票PDFファイルの雛形を画面に表示して、それを見ながら抽出したい範囲(矩形)の座標値を取得します。
②抽出範囲の指定値およびXMLへの出力方法について、出力形式設定ファイルを作成します。
③変換プログラムの動作は、実際のデータが入った帳票PDFファイルを読み、②で作成した出力形式設定ファイルを参照しながら、指定範囲内のテキストなどの情報を取り出し、XML化して出力します。
④あとは、変換プログラムを動かして、帳票PDFファイルを自動的に処理するシステムを作り、自動運転することになります。
【この開発を通じて、感じたこと】
PDFからXMLに変換にする際に、PDFのデータを解析して構造を取得すると考え勝ちです。しかし、そうではなく、外部からXML構造を与えるという方法も、実際のところは、かなり有効な、コストパーフォーマンスが良い方法でしょう。
このプログラムに関してのお問い合わせは、sis@antenna.co.jpまでお気軽にどうぞ。
投票をお願いいたします