« 2006年10月01日 | メイン | 2006年10月03日 »
2006年10月02日
PDFからWordへ 3つの変換ソフトを無慈悲に比較する (2)
昨日は、3製品でサンプルのPDFをWordに変換してみましたが、次に、各製品の変換結果を詳細に検討してみます。
1.全体として
(1)余白の認識
PDFには余白の概念がありません。これに対して、ワープロ文書には余白があります。普通は、上余白にヘッダ、下余白にフッタを配置することが多いので、PDFをワープロ文書に変換するとき余白をどう設定するか、はかなり大きな課題と思います。理想的にいえば余白を自動推定するのが望ましいと思いますが、これを実現している製品はありません。
・「リッチテキストPDF2」(リッチPDF)は、余白を既定値で設定しますが、ユーザがビューアで余白を設定することもできるようになっています。
・「いきなり PDF to Data2」(いきなり)は、上下左右余白をゼロにしています。
・「速攻! PDF to Data2」(速攻)は、上下左右余白を全て3.5mmにしています。
Microsoft Wordのページ内領域配置モデルではヘッダ・フッタは上余白・下余白内に挿入することが前提です。ヘッダを挿入するとヘッダの上端位置+ヘッダの高さがヘッダの下端位置になります。そして、ヘッダの下端位置が上余白をはみ出すと、本文領域がヘッダに侵食され、本文の開始位置が、侵食された分だけ下方にずれます。このことから、「いきなり」も「速攻」も変換後の文書にヘッダを挿入すると全てのページの本文領域が移動し、本文レイアウトを再編集することが必要になることが分かります。フッタについても同様です。
■変換後文書にヘッダやフッタを挿入することを考えると余白を設定する方が良いのではないでしょうか。
(2)テキストボックスの使用
PDFをWord文書に変換する大きな目的は、文書の再利用だろうと思います。再利用するためには、Word文書の段落に変換していくのが一番使い勝手が良くなります。ところが、段落に変換して段落内の行間隔と段落間の空き量を制御してテキストをレイアウトする方法だとPDFのレイアウトを再現するのが困難です。
これに対して、Wordのテキストボックスを使えば、ページの中での絶対位置指定ができますので、PDFのレイアウトを再現するのが比較的簡単です。再利用などなにも考えず、レイアウトさえ再現できれば良いというなら、テキストボックス使いまくりで変換後の文書を作る方法をとれば開発者は楽です。しかし、恐らくユーザは不満をもつでしょう。
さて、このサンプル文書の1~2ページにテキストボックスをいくつ使っているかを見ますと、次のようになります。
・「リッチPDF」 4個
・「いきなり」 16個
・「速攻」 15個
具体的にそれぞれがどのようなテキストボックスを作っているかを図で示します。
○「リッチPDF」のテキストボックスの位置をグリーン枠で示したもの
これを見ますと、「リッチ」のテキストボックス4個はいずれも使わなくても良い箇所です。テキストボックスを無駄に使っている感があります。この程度のレイアウトであれば、テキストボックスをひとつも使わずにレイアウトすべきだろうと思います。
○「いきなり」のテキストボックスの位置をグリーン枠で示したもの
○「速攻」のテキストボックスの位置をグリーン枠で示したもの
「いきなり」「速攻」はテキストボックス使いまくりでレイアウトを再現しているのは明らかです。ただし、「いきなり」は1ページ目にたくさんのテキストボックスを使っていますが、「速攻」は2ページ目にたくさんのテキストボックスを使っているという点が少し異なります。
■PDFからWordへの変換では、変換後のPDFのレイアウトを崩さず、かつ、再利用しやすくするためにテキストボックスをどう使うか、そのバランスをもっと工夫すべきです。
(3)フォント
このPDFの本文は日本語ではMS明朝とMSP明朝が使われています。また、本文は9.6ポイント、場合によってはより大きなフォント・サイズ、大きなフォント・サイズが使われているようです。
「リッチテキストPDF2」では、変換後のフォントサイズを0.5ポイント単位で指定していますが、「いきなり」、「速攻」では、フォントサイズを1ポイント単位で認識しているようです。PDF内のテキストに設定されている、フォントとフォントサイズを詳細に認識できないというのは、OCRソフトの限界かもしれません。
ただし、今回のサンプルでの変換結果を見る限りでは、変換後のフォントサイズを0.5ポイント単位で設定するか、1ポイント単位で設定するかであまり大きな違いはないようです。
投票をお願いいたします