日別アーカイブ: 2011年10月26日

新発売『瞬簡PDF 変換 7』は、透明テキスト付きPDF作成にもひと工夫!!

新発売の『瞬簡PDF 変換 7』では、透明テキスト付きPDFの作成処理に新しい機能を追加しています。

  • 透明テキスト付PDFとは、スキャナーで読み取った画像をOCR機能をつかって文字を認識し、コード化した情報(テキスト)として、PDFの画像の上に透明属性を持たせて重ねたものを指します。
    PDFファイルの内容である文字情報を利用したいときは、テキストを取り出して利用できます。また、PDFファイルの中を検索してヒットした文字列の該当部分を反転表示することもできます。

具体的に説明します。

以下は本製品のユーザーマニュアルの一部ですが、通常の文字と画像が混在した構成になっています。

文字と画像が混在したPDF
文字と画像が混在したPDFの例
(画像をクリックすると拡大します)

このような場合、既にテキストがページ上にあるので(図では反転表示にしています)、このままで文字列を検索することが可能です。
しかし、画像部分にある文字も検索対象にしたいといったときはどうでしょう?
そのような場合、通常は、このページ全体を画像化してOCR処理でテキストを取り出します。

そうすると、画像部分の文字もテキスト化できますが、元からあるテキスト部分もOCR処理することになり、場合によっては誤認識で文字化けしてしまう可能性があります。
また、ページを画像化することで、このページにあるしおりの情報(図の左側に表示されているツリー上の見出し部分)も失われてしまいます。

『瞬簡PDF 変換 7』では、透明テキスト付きPDFの作成時に、[元の情報を保持してOCR結果を埋め込む]という機能を選択できます。

透明テキスト付きPDFのオプション

これは、PDFの元の情報を保持したまま、ページ内にある画像だけOCR処理をして、その結果を透明テキストとして一緒にPDFに埋め込み、保存するというものです。
先ほどのPDFをこの機能をオンにして、変換してみます。

透明テキスト付きPDF
画像部分に透明テキストを埋め込んだPDFの例
(画像をクリックすると拡大します)

図で、反転表示している箇所がテキストになります。画像上の文字に対してもテキスト化されているのがお分かりになると思います。
また、ページの左側にある、しおり情報がそのまま保持されている点にもご注目ください。

様々な情報をPDF化してパソコンに蓄積し、必要なときに取り出して参照する方法は、たいへん便利なものです。
それには、多数のPDFファイルから必要なものを探し出せるように、検索性の高いPDFを作成することが重要になってきます。
既存のPDFのテキストデータを生かし、さらに画像化された文字までテキストデータとして検索可能にするこの機能を、PDFご活用にお役立てください。

『瞬簡PDF 変換 7』の透明テキスト付きPDF作成機能について、詳細はOCRによる透明テキスト付きPDFの作成をご参照ください。
明日はPDFからExcelへの変換時の改善についてご説明します。