« PDFってどんなもの(6) – Word文書はPortable? | メイン | PDFの作成方法(1) – 全体の仕組み »

2005年10月31日

PDFからXMLへのデータ変換(3)

PDFからXMLへのデータ変換の例として、最近、アンテナハウスが、あるお客様向けに開発したプログラムのあらましをご紹介します。

これは、固定レイアウト帳票のPDFファイルから、各ページの指定位置の項目の情報を取り出して、結果をXMLファイルにするというものです。

用途は、取引先から毎日膨大な量の帳票データがPDFで送られてくるのですが、その帳票PDFデータの中の一部の情報を取り出して、データベースに蓄積して管理したい、ということです。

①オリジナルの帳票を簡単な図で表すと次のようになります:
Form1.jpg

②やりたいことは、この中の一部の項目の情報を取り出す:
Form2.jpg

解決策は次のようになります。

①PDF Viewerで、帳票PDFファイルの雛形を画面に表示して、それを見ながら抽出したい範囲(矩形)の座標値を取得します。

②抽出範囲の指定値およびXMLへの出力方法について、出力形式設定ファイルを作成します。

③変換プログラムの動作は、実際のデータが入った帳票PDFファイルを読み、②で作成した出力形式設定ファイルを参照しながら、指定範囲内のテキストなどの情報を取り出し、XML化して出力します。

④あとは、変換プログラムを動かして、帳票PDFファイルを自動的に処理するシステムを作り、自動運転することになります。

【この開発を通じて、感じたこと】
PDFからXMLに変換にする際に、PDFのデータを解析して構造を取得すると考え勝ちです。しかし、そうではなく、外部からXML構造を与えるという方法も、実際のところは、かなり有効な、コストパーフォーマンスが良い方法でしょう。

このプログラムに関してのお問い合わせは、sis@antenna.co.jpまでお気軽にどうぞ。

投稿者 koba : 2005年10月31日 08:00

トラックバック

このエントリーのトラックバックURL:
http://blog.antenna.co.jp/PDFTool/mt-tbng2.cgi/36

コメント

こんにちは
以前、JPCのPDFセミナーで御社製品のご紹介を御願いいたしましたPDF委員会の者です。
PDFからXMLというのも普及しそうな勢いですね。
PDF委員会でも先日XMLから自動で印刷物のデータを作成するというセミナーを行いました。
結構な反響がありました。
最近の流れということなのでしょうが、XML、DTP、PDFというのは切っても切れない関係になっていくのでしょうね。
私達も印刷側からのアプローチとして、いろいろなことを研究していかなければならないと感じました。

あと、これは印刷側からの意見なのですが、PDFの出現のおかげ(?)で、DTPの分野でも垣根が下がり、DTPがビジネスの分野でも身近になってきたといえるのではないでしょうか。ワンソース・マルチユースの時代がPDFによって可能になったといえるかもしれませんね。

投稿者 masami : 2005年10月31日 10:21

コメントしてください




保存しますか?