« 2005年10月30日 | メイン | 2005年11月01日 »

2005年10月31日

PDFからXMLへのデータ変換(3)

PDFからXMLへのデータ変換の例として、最近、アンテナハウスが、あるお客様向けに開発したプログラムのあらましをご紹介します。

これは、固定レイアウト帳票のPDFファイルから、各ページの指定位置の項目の情報を取り出して、結果をXMLファイルにするというものです。

用途は、取引先から毎日膨大な量の帳票データがPDFで送られてくるのですが、その帳票PDFデータの中の一部の情報を取り出して、データベースに蓄積して管理したい、ということです。

①オリジナルの帳票を簡単な図で表すと次のようになります:
Form1.jpg

②やりたいことは、この中の一部の項目の情報を取り出す:
Form2.jpg

解決策は次のようになります。

①PDF Viewerで、帳票PDFファイルの雛形を画面に表示して、それを見ながら抽出したい範囲(矩形)の座標値を取得します。

②抽出範囲の指定値およびXMLへの出力方法について、出力形式設定ファイルを作成します。

③変換プログラムの動作は、実際のデータが入った帳票PDFファイルを読み、②で作成した出力形式設定ファイルを参照しながら、指定範囲内のテキストなどの情報を取り出し、XML化して出力します。

④あとは、変換プログラムを動かして、帳票PDFファイルを自動的に処理するシステムを作り、自動運転することになります。

【この開発を通じて、感じたこと】
PDFからXMLに変換にする際に、PDFのデータを解析して構造を取得すると考え勝ちです。しかし、そうではなく、外部からXML構造を与えるという方法も、実際のところは、かなり有効な、コストパーフォーマンスが良い方法でしょう。

このプログラムに関してのお問い合わせは、sis@antenna.co.jpまでお気軽にどうぞ。

投票をお願いいたします

投稿者 koba : 08:00 | コメント (1) | トラックバック