« 2006年10月02日 | メイン | 2006年10月04日 »

2006年10月03日

PDFからWordへ 3つの変換ソフトを無慈悲に比較する (3)

昨日に続き、3製品の変換結果について、さらに詳しく検討してみたいと思います。

2.1-2ページ目の変換結果について
まず、先頭から2ページ分の変換結果をWord2003で読み込んでオリジナルPDFと比べて変換結果が良くないところ、改善すべきところを見てみます。

(1)「リッチPDF」
次の図がリッチPDFの変換結果でオリジナルと比較して問題がありそうなところを示したものです。

20061004-1.PNG
・PDFを解析していますので、当然ですが、文字の誤りはひとつもありません。
表のただし、解析プログラムを改良すべき点として、次のようなことがあります。
・最初の見出しの番号と見出し文字がずれている
・先頭ページで表の前のテキストに不要な枠線がついている
・文字間に不要な空白が入っている
・次の行の行頭文字(括弧など)が前の行の後ろにつく箇所が多数あるのが目につきます。これは早急に直して欲しいものです。

(2)「いきなり」
20061004-2.PNG
・文字認識が誤っている箇所を赤マーカで塗りましたが、1ページ目に12箇所、2ページ目に3箇所あります。文字種では9種類です。
・表のセルごとの文字サイズが、8、9、10、11ポイントが混在していて醜くなっています。表のセル内の文字サイズの認識精度が良くないようです。
・表の中の文字列の改行位置がオリジナルと違います。
・フォントカラーがなぜかグレーになる箇所があります。
・黄色がなくなっています。
・テキストボックス中の改行幅がオリジナルと比べて小さすぎるようです。行間隔はもう少し広くすべきではないでしょうか。

解決が難しい問題が多いという印象を受けます。

(3)「速攻」
20061004-3.PNG
・OCR方式でありながら、文字の誤りが少ないのは優れていると思います。ただし、広告のうたい文句に文字認識100%とありますが、1ページ目に文字化けが3箇所あります(~が、<”に化けている)。100%は嘘じゃないの?
・表の中の文字列の改行位置がオリジナルと違う。
・テキストボックス中の行間隔がオリジナルよりも広めになっているためか、テキストボックスから行、文字があふれている箇所が3箇所あります。このまま印刷すると行と文字が脱落した状態になってしまいます。

行間隔をもう少し小さめにするべきではないでしょうか。

※読者の皆様へ
この画像は、あくまで各製品の2006年9月末現行販売品による変換結果です。各社ともこの結果を見て製品を改善するでしょうから、将来、この結果は該当しなくなると思われますのでご注意ください。問題点については、各社とも早急に改善する努力がなされることを期待します。

投票をお願いいたします

投稿者 koba : 08:00 | コメント (0) | トラックバック