アクセスブルなPDF(第2回)

こんにちは!
本日は PDF の言語指定に関して説明します。

  1. 言語指定
    言語の指定はIETF の規格「RFC 4646」に従います。
    言語の指定は言語コードとカントリーコードからなります。 言語コードは一般的にに小文字を使用し、カントリーコードは一般的に大文字を使用しますが、 大文字/小文字は区別しません。

    文字指定の例を示します。
    en-US  英語  米国
    en-CA  英語  カナダ
    zh-CN  中国語  簡体字、中国
    zh-Hant  中国語  繁体字
    ja  日本語
    ko  韓国語
    fr  フランス語
    fr-CA  フランス語  カナダ

  2. 言語指定の箇所
    PDF 全体と、個別の要素ごとに言語を指定できます。
    各国の言語が混在している場合に対応できます。

    (1) PDF 全体の言語指定
    PDF 全体の言語指定は、ドキュメントカタログ内の Lang エントリで指定します。

    (2) 構造化要素の言語指定
    アクセスブルな PDF は構造化されており、 構造化辞書が存在します。
    構造化要素の要素辞書にLang エントリが有ります。
    このLang エントリで個々の要素の言語を指定します。

    3) 構造化要素以外のコンテンツの言語指定
    マーク付きコンテントシーケンスを使用します。Span タグ属性のLang エントリで言語を指定します。
    (例)

    BT  % テキスト開始
    	( アーノルドは ) Tj
    	/Span << /Lang (es-MX) >> 	% マーク付コンテント開始 スペイン語
    	BDC
    		(Hasta la vista.) Tj
    	EMC 	                                          % マーク付コンテント終了
    	(と言った。) Tj
    				
    ET  % テキスト終了
  3. 次回
    文字が unicode でエンコーディングされている場合は、言語指定との関係がどうなるのかを考えます。 また、PDF1.5 では、「多言語テキスト配列」が定義できますので、とりあげてみたいと思います。
    (多言語テキストの例)
    [ (en-US) (My vacation) (fr) (mes vacances) ( ) (default text) ]

今回はこれまでです。