« PDFからWord、Excel変換ソフトの評価 (1) | メイン | テキスト抽出ソフト「TextPorterV4.2サーバ版」の出荷を各OS毎に順次開始 »

2007年03月22日

PDFからWord、Excel変換ソフトの評価 (2)

次に、2007年03月17日PDFからExcel変換ソフトの3つ目に紹介しました、PixelPlanet GmbHのPdfGrabber3.0を試してみたいと思います。

この会社のWebページはメインがドイツ語ですが英語のページもあり、評価版をダウンロードすることができます。Web ページを見ますと、1996年からやっているようです。この道10年ですか。でも、アンテナハウスは、この道23年ですからキャリアじゃ負けません。

■PDFからWord変換
PDFからWord変換では、レイアウトを維持するモード、高い変換性、テキストフロー、多段のレイアウトという4種類のモードがあります。さらに、各モードでオプション設定が多々あります。このオプションのダイヤログは英語なのにドイツ語が混在していたりして意味が良く分かりません。
20070322-1.PNG

○レイアウトを維持するモードは、原則としてテキストボックス使いまくり変換です。このソフトの場合、酷いことに単語単位でテキストボックスを作ってしまうようです。但し、ページによってはテキストボックスを作っていないページもあり、ページのレイアウトを見てテキストボックスをどの程度作るかを決めているのかもしれません。

○次にテキストフローを選んで変換します。すると、次の図のように1ページ毎にテキストを完全につなげてしまいます。これは、一種のテキスト抽出に相当する機能と言えます。
20070322-2.PNG

○次の変換性はどうでしょうか。変換結果を見ますとテキストボックスは使わずに一応それなりのレイアウトになっています。
20070322-22.PNG

詳細にみますと、どうも1行単位でタブを使ってレイアウトを調整しているようです。次の図をご覧ください。Wordのルーラを見ますと、余白が取られていますが、本文開始位置にタブ位置が設定されていて、各行の先頭がタブ設定位置から開始されています。
20070322-23.PNG

このような文書の作り方はやはりあまり編集しやすいものではないと思います。

さて、この同じ変換性のオプションを選択して、昨日のEUの文書を変換して、表の部分を見てみますと、このコンバータで作成した表も、一見、レイアウトが完全に再現されているように見えますが、表のボーダー部分が全部図形(オートシェイプ)になっています。しかも、グループ化されていません。
20070322-21.PNG

■PDFからExcel変換
次に、簡単なPDFの表をExcelに変換してみました。
使用したPDFは昨日の例と同じです。
変換結果をご覧ください。
○レイアウトを維持するモード
次のように、Excelのセル幅とセル結合を使って、かなり高いレイアウト再現性ができています
20070322-31.PNG

○変換性モード
このモードでは、次の図のように行方向のセル結合を使っていないので、さらにExcel的な表になっています。ざっくり言ってかなり良い出来のように思います。
20070322-32.PNG

このソフトのPDFからWord変換はあまりお勧めできません。しかし、PDFからExcel変換はそこそこ使えそうに思います。(但し、メニューがドイツ語なので日本で使うのはあまりお勧めできません。)

【ご注意】PdfGrabber3.0の評価版では、変換後の文字列にXをランダムに挿入してしまいます。このため、評価版だけでは日本語の文字列が正しく変換できるかどうかは判断できません。上のキャプチャは、どのような変換をしているかを判断するためのみにご活用ください。

投稿者 koba : 2007年03月22日 08:00

トラックバック

このエントリーのトラックバックURL:
http://blog.antenna.co.jp/PDFTool/mt-tbng2.cgi/634

コメント

コメントしてください




保存しますか?