« 2007年08月08日 | メイン | 2007年08月10日 »
2007年08月09日
外字(表外字)(2)
外字の話の続きですが、実際に Antenna House PDF Driver がどのように外字を PDF へ出力しているのかを簡単に説明します。
ユーザが各々の環境で作成する EUDC フォントは他の環境に存在することは通常ありませんので、Antenna House PDF Driver は Unicode のコードポイントからそのグリフを外字と判断した場合、自動で PDF にフォントを埋め込みます。EUDC フォントは TrueType 形式のフォントファイルですので、ここからは通常の TrueType フォントを埋め込むのと同じ手順となります。
まず、フォントファイルからグリフのアウトラインデータを取得して PDF 埋め込みますが、PDF の本文内ではグリフ番号だけになり、文字コードによる検索ができませんので、ToUnicode CMap を作成して、フォントに付加します。これで外字を検索することができるようになります。
ToUnicode CMap については、2006/5/18 のブログをご覧ください。
PDFからテキスト抽出のために ToUnicode CMap