« PDFってどんなもの(5) – PDFの用途は? | メイン | インターネット版の「官報」PDF »
2005年10月27日
PDFからXMLへのデータ変換(1)
xmluserのメーリングリストで、このブログが紹介されました:
http://www2.xml.gr.jp/log.html?MLID=xmlusers&TID=9356&F=0&L=10&R=1
そこで、今日はこの機会に、PDFからXMLへの変換について少し話してみたいと思います。
昨日、DATABASE TOKYO2005に立ち寄って「PDF2XML」を見てきました。以前から、ウオッチしていた製品なので、どこまで進んだか関心があったのです。
さて、「PDF2XML」は、その名前の通り、PDFをXMLに変換するためのソフトウェアです。
アメリカのXMLCitiesというベンチャ企業で開発したもので、(株)データプレイスが日本の総代理店となって販売しています。XMLCitiesには三菱商事がかなり投資しているとのことです。商事にXMLが好きな人がいるのかもしれませんね。
以前に聞いた説明では、確か、PDFのファイルを解読し、テキストを取り出して中間形式に変換し、中間形式からターゲットXMLにパターンマッチングで変換するという2ステップ変換を取っていたと記憶しています。
製品紹介資料には、テキストだけでなくスタイルも取り出せるという説明があります。
今日のデモでは、日刊工業新聞の企業人事面(新聞記事)PDFを解読して、自動的にXMLにするところを見せてもらいましたが、結構良く出来てましたね。
価格はお安くありません。開発会社が使う開発ツールが税込み100万円。さらに、エンドユーザで使うときは、ランタイムライセンスが、例えばクライアントサーバタイプだとサーバ1CPUで税込み200万円です。
さらに、開発会社では、XMLのスキーマにあわせて、適切なルールを開発しなければなりません。この開発費がプラスされます。この開発費はバカになりません。本当に使えるようにするには、相当にかかるでしょう。かなり大きなシステムでないと投資効果がでないように思います。
私の経験では、この方式は、中間形式の仕様と、パターンマッチングとルール開発というのが難点で、なかなかうまくいかないものでした。
以下は、あくまで私が同じようなことをした時の経験です。「PDF2XML」にはあてはまらないかもしれませんが、その前提で聞いてください。
(1)原データから中間形式まで持ち込む際に情報がなくなってしまうと、後段で取り出せないので、中間形式をどう設計するかが大きな課題となります。うまく行くも行かないも、中間形式次第ということ。
(2)パターンは一般化するのが難しく、対象個別になりがち。任意のPDFとXMLの組に当てはめるのは無理なように思います。つまり汎用化困難。
(3)パターン処理プログラム開発は、XSLTのような標準技術であれば、技術者も多いので安くできるかもしれませんが、固有のマッチングルールだと、開発できる人の育成から始めなければなりません。これはコストアップの要因になります。
いづれにせよ、PDFからXMLというのはなかなか難しいテーマなんですね。というわけで、続きはまた後日。
投稿者 koba : 2005年10月27日 08:40
トラックバック
このエントリーのトラックバックURL:
http://blog.antenna.co.jp/PDFTool/mt-tbng2.cgi/29
コメント
田上さん
こんにちは。コメントありがとうございます。
PDFからXMLというのは、それなりに必要性があると思います。貴社のPDF2XMLは、かなり高度なものだと思います。いずれにせよ、今後、必ず大きくなるマーケットですね。石の上にも3年で頑張ってください。
投稿者 koba : 2005年10月27日 21:31
小林様、ご無沙汰しております。データプレイスの田上です。弊社ブースへお立ち寄りとの事。ちょうど私が他の方へ説明中で、ご挨拶できず失礼いたしました。
一昨年からプロモーションを行っていますが、去年は方式の解説と認知の強化(PDFが入力になり得ることの説明に苦労しました)、ちょっと知られては来たので、今年はビジネス展開に持っていこうと考えております。いくつか応用製品も出来つつありますので今後お見せできる機会もあるかと思います。
パタンマッチ、汎用化などはおっしゃるとおりで、文書PDFといってもコンテンツの内容によって千差万別、出力される構造もいくらでもバラエティがありうるのが実際ですから難しいことは確かです。だからこそ、このSDK製品の意味があるのではないとも思いますが。どうでしょう。
困難な課題ですが、楽しみながらプロモーション(と実は応用開発もちょっと)やっています。
(SVMや形態素につなぐと面白いかな)
これからもよろしくお願いいたします。
データプレイス 田上
投稿者 田上@データプレイス : 2005年10月27日 20:54