« 2006年09月30日 | メイン | 2006年10月02日 »

2006年10月01日

PDFからWordへ 3つの変換ソフトを無慈悲に比較する (1)

ソースネクストが、9月29日に「いきなりPDF To Data2」を発売しました。このソフトは最初のバージョンが2005年4月に発売されましたが、それ以来、PDFをワープロ文書に変換するソフトの分野では売行き(本数)トップをずっと維持してきました。

この製品は、PDFを画像に変換した上で、パナソニックの文字認識エンジンを使ってOCR処理してWord文書に変換する方式です。アンテナハウスが開発した「いきなりPDF Professional2」とセットで販売されているため、弊社製品と誤解しやすいためか、時々、「リッチテキストPDF2」宛てに、OCRの精度をもっと上げてほしいという要望をいただくことがあります。

そんなこともあり、できるだけ誤解を解くべく、下記に両製品の違いについて、まとめておきました。
PDF からOffice文書への変換ソフト

今回新バージョンになって、文字認識の精度アップをアピールしています。どの程度よくなったのか興味深いところです。

また、先日、同種のソフトとして、クロスランゲージから「速攻!PDF to Data」が発売されました。これは、ハイブリッド方式といって、テキストが埋め込まれたPDFでは、文字認識ではなく、PDFから符号化されたテキストを抽出する方式を採用し、文字認識ゼロを売りものにしています。名前もパッケージもまさしく「いきなり PDF to Data」への挑戦という印象を受けます。

アンテナハウスでも、「リッチテキストPDF2」を8月に出しています。そこで、今日は、この3つの製品を比較してみたいと思います。一般にWebで他社製品を比較するときは、A社、B社、C社というような曖昧な表現をとっているようですが、ここでは、そういう表現を使わず、情け容赦のない比較をしてみたいと思います。もちろん、自社製品に対しても例外ではありません。

その動機は、世界のナンバーワンを目指し、正々堂々と切磋琢磨しようということであって、他社の誹謗中傷をすることではないのでお間違えのないようにお願いします。まあ、実際は、変換したいPDFによって、それぞれの方法の利害得失が出てくる可能性がありますので、完全に公平無私な比較は難しいものですが。

まず、Webにあがっている実際のPDFを使ってどの程度の変換ができるのかを試してみました。

試してみたPDFはWebで配布されている「敦賀市物品等競争入札参加資格審査申請書提出要領(建設工事を除く。)」です。この文書はテキストと表を混在したもので比較的一般的なものだろうと思います。

このオリジナルテキストと、「リッチテキストPDF2」、「いきなりPDF to Data2」「速攻!PDF to Data」を使ってMicorsoft Wordに変換した結果をこちらにアップしてあります。
Download file

○使用したソフト
(1)「リッチテキストPDF2」:アンテナハウスのWebで配布されているパッチを宛てたもの。
リッチテキストPDF2 for Windows 改訂プログラムのご案内
(2)「いきなりPDF to Data 2」(9/30に購入したもの。プログラムのタイムスタンプは、P2D.EXEが8月29日になっています。)
(3)「速攻!PDF to Data」(9/30に購入したもの。プログラムのタイムスタンプは、PDF2Data.exeが8月3日になっています。)

○変換条件
なお、「リッチテキストPDF2」は、余白を対話式に設定し、先頭ページの部分を表変換設定しました。(図)
20061001.PNG
他の製品は、インストールした時のデフォルトのままです。
※10/1追記 「いきなりPDF to Data2」については、フォントを「MS明朝」に指定して変換するように設定して変換したものに差し替えました。

変換の様子を見ていますと、「いきなりPDF to Data2」も「速攻!PDF to Data」もともに、PDFを画像化して、その後、領域(レイアウト認識)、文字を認識(抽出)して、最後にWord文書を作成しています。全部または一部にOCRを使っていることは間違いありません。

投票をお願いいたします

投稿者 koba : 08:00 | コメント (0) | トラックバック