『AH PDF Server V3』のOCR機能について

　「AH PDF Server V3」ではPDFに変換する時にOCR（Optical Character Recognition：光学文字認識）を行う事が出来ます。OCRについてはこのブログでも時々出てきますので、詳細については省略しますが、時々サポートにも質問が寄せられる事がありますので、その辺について触れたいと思います。

　OCR機能と言うのは平たく言えば画像の中の文字を認識してそれをテキストとして作成するPDF上にレイアウトします。そのため、「AH PDF Server V3」では入力ファイルが画像ファイルもしくはPDFファイルの時にOCRを行う設定の場合には処理を実行します。当然、入力ファイルがテキストファイルやオフィスファイルの時にはOCRを行う設定になっていても無視します。

　OCR自体は画像認識処理なので、画像ファイルの場合には特に問題ありませんが、PDFファイルが対象の場合は少し事情が違います。ひとくちに「PDF」と言っても中身が全部同じとは限らないからです。

　「AH PDF Server V3」ではOCRの対象となるPDFファイルは1ページに画像が1枚だけ存在するPDFとなり、これが基本的な考え方です。少し難しい表現をしましたが、ハッキリ言えば画像をスキャナでスキャンして出力されたPDFファイルを対象としています。ただし、最近の複合機などで出力される「高圧縮されたPDF」の場合はスキャンされたPDFでもOCRの対象ではありません。

　変換設定の「OCR処理設定」で「すべてのPDFファイルでOCRテキスト付きPDFを作成する」のチェックがオフの場合、スキャンされたPDF以外では「OCR対象外」として無視されます（エラーにはなりません）。

　しかし、デフォルトでは「すべてのPDFファイルでOCRテキスト付きPDFを作成する」のチェックはオンになっています。この設定の場合は入力ファイル全てがOCR処理の対象となります。極端な話をすれば、テキストで構成されたPDFファイルもOCR対象にしてしまいます。

　この場合はどういう処理を行うのかと言えば、PDFを1ページ単位で画像に変換してからOCR処理を実行して再びPDFに変換します。これをすべてのPDFを対象に（上記の「1ページに画像が1枚だけ存在するPDF」も同様に）実行します。見た目には同じPDFですが、中身はまったく違ったPDFになってしまうため、以下のようなお問い合わせが時々寄せられる事があります。

　・PDFファイルをOCR処理したらファイルサイズが大きくなった
　・埋め込んであったフォント情報が無くなってしまった

　ファイルサイズが大きくなるのは一度画像にしてしまうからなのですが、例えばテキストだけのPDFだと数キロバイトが百数十キロバイト程度になります。本来対象となる「1ページに画像が1枚だけ存在するPDF」以外のPDFは軒並みファイルサイズはかなり大きくなります。また、フォント情報も一度画像に変換してしまうために全て失われてしまいます。

　「AH PDF Server V3」でPDFファイルを処理する場合、OCR処理に関しては基本的には「すべてのPDFファイルでOCRテキスト付きPDFを作成する」のチェックをオフにしておく事をおすすめします。そうすればテキストがすでに存在してフォント情報なども埋め込まれているPDFに対して不用意にOCR処理を実行してしまう事もありませんから。

　デフォルト状態がオンなのはV2.0の頃からの名残なのですが、設定する時には一度どんなPDFを処理するかを確認した上で設定を行うようにして頂ければ幸いです。

——-

AH PDF Serverについて、詳細情報は製品ページをご確認ください。
また、評価版もWebページからダウンロード可能です。ぜひお試しください!
評価版お申込みページ

製品についてのお問い合わせ：
アンテナハウス株式会社システム営業までどうぞ。
TEL：03-5829-9021　e-mail：sis@antenna.co.jp