« さまざまなPDFの作成技術の概観 | メイン | セミナー ご参加ありがとうございました »

2006年05月18日

PDFからテキスト抽出のために ToUnicode CMap

PDFにおけるフォントの取り扱いに関連して、ToUnicode CMapというものがあります。今日はこれについて説明します。

アウトライン・フォントについての説明でお分かりいただけたかと思いますが、PDFにアウトライン・フォントを使って記録された文字を表示する仕組みは、フォントの中にあるグリフのアウトラインをラスタライザで可視化することになります。

これに対して、もう一つのPDFの利用方法として、PDFを読み上げたり、あるいは、検索エンジンで検索したり、あるいはテキスト情報を取り出して他のアプリケーションで使用する、などが考えられます。

通常、上で述べたような処理にはテキストが必要です。テキストについては、2005年12月15日 PDFと文字(4) – 文字の取り扱いで説明しましたので、初めての方は12月15日の話をお読みになってみてください。

PDFの中では、文字を可視化するための情報が入っているのですが、可視化するための情報からテキストを取り出す方法には幾つかあります。

ToUnicode CMap(オプション)は、このための手段の一つとして用意されているものです。

CMapについては、2006年01月17日 PDFと文字 (25) – CMapで文字コードからCIDへ変換で説明しましたが、通常は、文字コードからアドビが定義した、CIDに変換する用途で使います。

ToUnicodeCMapは、CIDへの変換ではなく、PDFの中に入っている表示用の文字列情報をUnicodeに変換するためのテーブルです。CMapの仕様に準拠して作成されています。

PDFの中の情報をUnicodeに変換する方法は他にも幾つかありますが、ToUnicodeCMapは最優先で使われます。また、CJKのTrueTypeを埋め込んでいる場合、ToUnicodeCMapがないとUnicodeテキストを利用できないと思います。これを用意するのは、PDFを作成する生成ソフトの責任です。


投稿者 koba : 2006年05月18日 08:00

トラックバック

このエントリーのトラックバックURL:
http://blog.antenna.co.jp/PDFTool/mt-tbng2.cgi/292

このリストは、次のエントリーを参照しています: PDFからテキスト抽出のために ToUnicode CMap:

» アウトライン from アウトライン
Online Column - モー娘。Happy8期オーディションのアウトライン [2062][Illustrator ... コーチ『メタリック アウトライ... [続きを読む]

トラックバック時刻: 2006年08月19日 04:59

» 外字(表外字)(2) from PDF 千夜一夜
外字の話の続きですが、実際に Antenna House PDF Driver ... [続きを読む]

トラックバック時刻: 2007年08月09日 08:01

コメント

参考になりました

投稿者 石田 : 2006年08月01日 16:54

コメントしてください




保存しますか?