OCRを使いこなそう…(1)

朝夕だいぶ冷え込むようになってきました。
弊社伊那支店の裏手には小さな川があって、その先はずっと田んぼが広がっています。
夏の頃には緑一色の中に真っ白なコサギが何羽も舞い降りてエサを探す様子が見えましたが、この頃は枯れ草色の田んぼに秋のやわらかな日が差し、遠くの山々の紅葉が秋の深まりを感じさせてくれるようになりました。

さて、皆さんは「OCR(オーシーアール)」というコトバをご存じでしょうか?

OCR は、Optical Caracter Recognition(光学的文字認識)の頭文字をとったもので、紙に印刷された文字をスキャナなどで読み取り、コンピュータで利用できる文字データに変換するソフトウェア技術です。

紙に印刷された情報はいったんスキャナなどでイメージデータに変換し、さらに OCR 処理をかけることで文字検索したり文書ソフトで編集するなど、再利用が可能なデジタル情報となります。
弊社の PDF 変換ユーティリティ 『瞬簡PDF 変換 9』 は OCR 処理を搭載して、スキャナで作成した PDF やイメージデータから Word や Excel への変換を実現しています。

ただし、OCR は100%の読取りを保証できるものではありません。
OCR はイメージデータの中から特徴的な点の集合を抽出して文字の形を認識しますが、元の画像に歪み、汚れ、滲み、かすれなどがあると正しい認識ができません。
また、イメージデータには文字だけでなく写真や線の情報なども含まれるので、それらを適確に判別できないと正しい認識ができません。

OCR で文字化けが発生する原因としては概ね以下のことが考えられます。

  1. 紙の原稿にかすれや汚れがある場合
  2. 文字の上に網掛けや線が重なったり、文字と文字の間隔が狭い場合
  3. スキャナで読み取る際に文字の解像度が低かったり、歪みがある場合
  4. 文字に傾きや装飾があったり、文字の字体が特殊である場合
  5. OCR 処理で文字領域、画像領域などのレイアウトを正しく判別できない場合

瞬簡PDF 変換 9』 の OCR 処理でも残念ながらの上記の1.~4.は対応が難しく、その場合は原稿の取り直しをしていただくか、変換結果を手作業で修正していただくことをお願いしております。
ただし、5.に関しては手作業ではありますが、変換前に誤認識を予防する手段として OCR 補正機能をご用意しています。
OCR補正機能

次回 は、この機能について詳しくご説明します。

—————————
「瞬簡PDF 変換 9」は体験版をご用意しております。
これにより、変換精度や使い勝手を事前にご確認いただくことができます。

体験版では以下のような制限がありますので、あらかじめご了承ください。

  • インストールしてから 15日を過ぎると利用できなくなります。
  • ひとつの PDF について、3ページまで変換可能です。
  • 評価以外の目的で日常業務に利用することはできません。

体験版に関する詳細は、『瞬簡PDF 変換 9 体験版のお申し込み』 をご参照ください。

OCRを使いこなそう…(2)>>