« PDFをWordやExcelで再編集!! テキストPDFなのに文字化け!? | メイン | PDFをWordで再編集!! 段組みとテキストボックス、どちらを選ぶ? »

2011年07月13日

PDFをWordやExcelで再編集!! 画像PDFはここにご注意

最近は、スマートフォンやiPadなどの普及で電子書籍が注目され、「自炊」という新語?もすっかり定着してスキャナに関する関心も高まっているようですね。

さて、スキャナで作成したPDFはご存じの通り文字が画像化したデータになりますから、そのままでは再利用の役に立ちません。これを活用するためには画像化された文字をテキスト編集できる文字コードの並びに置き換えてやる必要があります。

そこで登場するのがOCR機能です。
OCRでは、点の集まりである画像データから文字とおぼしき部分を抽出して、あらかじめ登録された文字パターンと照合するという作業をします。このことから、文字認識の精度は元画像の画質(画像の粗さ)やレイアウトの複雑さなどの要素に大きく影響されます。

画質が良いかどうかをOCRでは解像度(dpi)という尺度で測ります。
これは画像のきめ細かさを示すもので、値が大きいほど画質は良くなりますが、その分サイズも大きくなります。ちなみにOCRに適した解像度は300~400dpi程度といわれています。これ以下だと誤認識が多くなるようです。また、400dpi以上では認識精度はあまり変わらず、逆にサイズが大きくなることで読み取りに時間がかかってしまいます。

下記は、同じ書類を解像度を変えてスキャンし、OCR処理した結果例です。
(画像をクリックすると拡大ポップアップ表示されます)

[元のPDF]
元のPDF

[150dpi でスキャンしたPDFからWordへ変換]
150dpi でスキャンしたPDFからWordへ変換

[300dpi でスキャンしたPDFからWordへ変換]
300dpi でスキャンしたPDFからWordへ変換


スキャンした際の解像度が低いと文字の誤認識が起こりやすいことがおわかりいただけると思います。

画像PDFをOCR処理する場合の注意事項につきましては、瞬簡/リッチテキストPDF6.1のOCRを使用した変換についてもご参照ください。

次回は、PDFをWordに変換する場合に選択できるオプションについてお話ししたいと思います。

投稿者 taishii : 2011年07月13日 11:00

トラックバック

このエントリーのトラックバックURL:
http://blog.antenna.co.jp/PDFTool/mt-tbng2.cgi/1671

コメント

コメントしてください

サイン・インを確認しました、 さん。コメントしてください。 ( サイン・アウト)

(いままで、ここでコメントしたとがないときは、コメントを表示する前にこのウェブログのオーナーの承認が必要になることがあります。承認されるまではコメントは表示されません。そのときはしばらく待ってください。)


情報を登録する?