« 2007年08月08日 | メイン | 2007年08月10日 »

2007年08月09日

外字(表外字)(2)

外字の話の続きですが、実際に Antenna House PDF Driver がどのように外字を PDF へ出力しているのかを簡単に説明します。

ユーザが各々の環境で作成する EUDC フォントは他の環境に存在することは通常ありませんので、Antenna House PDF Driver は Unicode のコードポイントからそのグリフを外字と判断した場合、自動で PDF にフォントを埋め込みます。EUDC フォントは TrueType 形式のフォントファイルですので、ここからは通常の TrueType フォントを埋め込むのと同じ手順となります。

まず、フォントファイルからグリフのアウトラインデータを取得して PDF 埋め込みますが、PDF の本文内ではグリフ番号だけになり、文字コードによる検索ができませんので、ToUnicode CMap を作成して、フォントに付加します。これで外字を検索することができるようになります。

ToUnicode CMap については、2006/5/18 のブログをご覧ください。
 PDFからテキスト抽出のために ToUnicode CMap

投票をお願いいたします

投稿者 numata : 08:00 | コメント (0) | トラックバック