最近は、スマートフォンやiPadなどの普及で電子書籍が注目され、「自炊」という新語?もすっかり定着してスキャナに関する関心も高まっているようですね。
さて、スキャナで作成したPDFはご存じの通り文字が画像化したデータになりますから、そのままでは再利用の役に立ちません。これを活用するためには画像化された文字をテキスト編集できる文字コードの並びに置き換えてやる必要があります。
そこで登場するのがOCR機能です。
OCRでは、点の集まりである画像データから文字とおぼしき部分を抽出して、あらかじめ登録された文字パターンと照合するという作業をします。このことから、文字認識の精度は元画像の画質(画像の粗さ)やレイアウトの複雑さなどの要素に大きく影響されます。
画質が良いかどうかをOCRでは解像度(dpi)という尺度で測ります。
これは画像のきめ細かさを示すもので、値が大きいほど画質は良くなりますが、その分サイズも大きくなります。ちなみにOCRに適した解像度は300~400dpi程度といわれています。これ以下だと誤認識が多くなるようです。また、400dpi以上では認識精度はあまり変わらず、逆にサイズが大きくなることで読み取りに時間がかかってしまいます。
下記は、同じ書類を解像度を変えてスキャンし、OCR処理した結果例です。
(画像をクリックすると拡大ポップアップ表示されます)
[元のPDF]
[150dpi でスキャンしたPDFからWordへ変換]
[300dpi でスキャンしたPDFからWordへ変換]
スキャンした際の解像度が低いと文字の誤認識が起こりやすいことがおわかりいただけると思います。
画像PDFをOCR処理する場合の注意事項につきましては、瞬簡/リッチテキストPDF6.1のOCRを使用した変換についてもご参照ください。
次回は、PDFをWordに変換する場合に選択できるオプションについてお話ししたいと思います。