こんにちは!
本日は PDF の言語指定に関して説明します。
- 言語指定
言語の指定はIETF の規格「RFC 4646」に従います。
言語の指定は言語コードとカントリーコードからなります。 言語コードは一般的にに小文字を使用し、カントリーコードは一般的に大文字を使用しますが、 大文字/小文字は区別しません。文字指定の例を示します。
en-US 英語 米国
en-CA 英語 カナダ
zh-CN 中国語 簡体字、中国
zh-Hant 中国語 繁体字
ja 日本語
ko 韓国語
fr フランス語
fr-CA フランス語 カナダ - 言語指定の箇所
PDF 全体と、個別の要素ごとに言語を指定できます。
各国の言語が混在している場合に対応できます。(1) PDF 全体の言語指定
PDF 全体の言語指定は、ドキュメントカタログ内の Lang エントリで指定します。(2) 構造化要素の言語指定
アクセスブルな PDF は構造化されており、 構造化辞書が存在します。
構造化要素の要素辞書にLang エントリが有ります。
このLang エントリで個々の要素の言語を指定します。3) 構造化要素以外のコンテンツの言語指定
マーク付きコンテントシーケンスを使用します。Span タグ属性のLang エントリで言語を指定します。
(例)BT % テキスト開始 ( アーノルドは ) Tj /Span << /Lang (es-MX) >> % マーク付コンテント開始 スペイン語 BDC (Hasta la vista.) Tj EMC % マーク付コンテント終了 (と言った。) Tj ET % テキスト終了
- 次回
文字が unicode でエンコーディングされている場合は、言語指定との関係がどうなるのかを考えます。 また、PDF1.5 では、「多言語テキスト配列」が定義できますので、とりあげてみたいと思います。
(多言語テキストの例)
[ (en-US) (My vacation) (fr) (mes vacances) ( ) (default text) ]
今回はこれまでです。