【PDFテックの知恵袋】PDFのページに書かれているテキストを取得(抽出)できますか?

ページ上の矩形を指定してテキスト抽出

PDF Tool API』を使用して、指定した矩形領域からテキストを抽出することが可能です。具体的には、PtlParamExtractText.appendRect(PtlRect rectMM)を使用してテキスト抽出する矩形を追加し、PtlParamExtractText.setTextOverlapRatio(float overlapRatio)でテキストが矩形とどれくらい重なっていたら抽出対象とするかを設定します。

テキストに指定されているフォントファミリー、文字の大きさ、文字の色などの取得

PDFのテキストを取り出す際に、指定されているフォントファミリー、文字の大きさ、文字の色などの情報を同時に取得することができます。具体的には、PtlEditTextやPtlEditTextItemを使用して、PDFに含まれるテキストオブジェクトの情報を取得できます。これには、テキストの内容、フォント情報(フォント名、フォントタイプ、エンコーディング名など)、およびテキストの色(ストロークカラー、塗りつぶしカラー)が含まれます。フォント情報はPtlFontInfoクラスを通じて取得できます。

テキストの並び順序

PDFファイルの中で文字データが保存されている順番は、必ずしも画面表示の順番とは限りません。ファイルの中の文字をPDFの画面(ページ面)に表示するときは指定された座標位置に表示されます。このため画面上の見た目でつながっていても、ファイルの中では文字がつながっているとは限りません。

テキストを矩形から抽出する際、テキストの順序はPDF内での配置順にするか、座標でソートして抽出するかを選択できます(座標でソートして抽出する機能はV7.0より追加されました)。PDF内での配置順のまま抽出すると見た目とは異なる順序で抽出される場合があります。

抽出できないテキスト

画像として埋め込まれた文字はテキストとして取得できません。また、特殊なフォントやエンコードが使用されている場合、テキストとして取得できないことがあります。

過去3回分

10月21日 【PDFテックの知恵袋】 PDFファイルの指定したページ上の指定した位置に文字を追記できますか?
10月23日 【PDFテックの知恵袋】PDFのしおりとは何でしょうか。どうやってつくりますか。
10月24日 【PDFテックの知恵袋】 PDFのページに書かれているテキストを削除できますか。




アウトライナー
PDFを解析して しおり・目次を自動生成


HTML on Word
WebページをWordで作る!


HTML on Word
WebページをWordで作る!


アウトライナー
PDFを解析して しおり・目次を自動生成