PDF ビューアー開発だけではない!~ PDF Viewer SDK 利用例のご紹介(2)~

前回 のつづきで、「PDFViewerAPI 」について PDF ビューアー開発以外の利用例をご紹介したいと思います。

PDF テキストの抽出

PDF を表示するには、PDF ファイルのページデータに書かれた描画用の命令を走査しながら、文字、線や曲線、イメージといったデータを読み取り、位置を計算しながら指定されたフォントや色や模様で描画する、といった処理をおこないます。

つまり、PDF の表示ができるということは、どの位置にどんな文字があるか分かるということになります。PDF ビューアーで文字列を検索したときにハイライトすることができるのはこの情報の応用です。 ハイライトの場合は、文字列を指定してその領域を調べる処理です。逆に領域を指定してその範囲に含まれる文字列を調べることも、同じ情報があればできることがわかります。「PDFViewerAPI 」でも領域を指定してテキスト抽出をする API をご利用いただけます。

最近では、様々なサービスで料金明細が PDF 形式のデータで配布されるなど、個人でも PDF 形式の帳票データに出会う機会が増えました。業務ではもっと多くの PDF 帳票データが利用されていると思います。このようなデータが増えてきて、元データが入手できず PDF しかない場合が多いためか、PDF 形式の帳票データからテキスト情報を取り出したい、または、その情報に元にファイルの分類などの何らかの処理をしたいといった要望が増えています。

これらの PDF データは、システムから直接出力されたものであることがほとんどで、テキストデータを含み、定型帳票であれば位置も変らないことが多く、テキスト抽出処理に適しています。(※)
開発アプリケーションで「PDFViewerAPI 」のテキスト抽出 API を利用すれば、こういった処理の自動化に役立てることができます。同様の状況でお困りの方はぜひご検討ください。

以上、簡単ですが PDF ビューアー開発以外の利用例のご紹介でした。

※  スキャンされた画像 PDF の場合は、テキストデータが含まれていない、含まれていても OCR 処理で付加されたテキストで誤認識や位置が一定しないなどの問題があるので、このような処理には不向きです。

PDF Viewer SDK はWindows 10 動作確認済み!
評価版をご用意しておりますので、ぜひこの機会にお試しください。

製品ページ:
https://www.antenna.co.jp/oem/ViewerSDK/
評価版のお申し込み:
https://www.antenna.co.jp/oem/ViewerSDK/trial.html

Android 向けPDF 描画ライブラリー『Antenna House pdfview 』もご用意しております。すぐに実行できるPDFビューアーサンプルアプリ付き!
こちらもぜひお試しください。

製品ページ:
https://www.antenna.co.jp/ahpdfview/
評価版のお申し込み:
https://www.antenna.co.jp/ahpdfview/trial.html

お問い合わせ:
PDF Viewer SDK、pdfview は OEM 販売となります。OEM ご相談窓口へお問い合わせください。