« 2006年01月18日 | メイン | 2006年01月20日 »
2006年01月19日
PDFと文字 (27) – アラビア文字の扱い
アラビア文字がアラブ文化圏の広がりとともに、様々な国で使われていることについては、12月13日に簡単に触れました。
ここでは、Unicodeでアラビア文字がどのように扱われているかをまとめてみましょう。
アラビア文字が定義されているブロックは、アラビア文字(U+0600~U+06FF)、アラビア文字追補(U+0750~U+076D)、アラビア文字表示形-A (U+FB50~U+FDFF)、アラビア文字表示形-B (U+FE70~U+FEFF)の3ブロックになります。これらについて検討します。
アラビア文字の書法は印刷でもcursive、日本語でいう連綿体(書道で、草書や仮名の各字が次々に連続して書かれている書体)になります。このため多くの文字は、単語の中で出現する位置によって形 (form) が変わり、単独形、左接形、両接形、右接形の4つの形をもつことになります。
次の図の上は、全部、文字を単独形で並べたもの、下は、単語の中の文字を接続させたもの(通常)です。
アラビア文字:U+0600~U+06FF コードチャート
 ISO/IEC 8859-6 (Part 6 Latin/Arabic Alphabet) 規格と同じ順序で文字を並べています。但し、Unicode独自で追加した文字もあります。掲載している文字の形は単独形のみです。 
アラビア語の表記では、主にフランス語系統の句読点や括弧類を使います。括弧類はラテンアルファベット用のものを鏡に写した像の形になります。形が大きく違っているものは独自のコードポイントが与えられています。アラビア文字ブロックにコードポイントのある句読点は次のものです。これ以外の句読点はラテン文字と共用になります。
| 名称 | コードポイント | 形 | 
|---|---|---|
| Arabic Comma | U+060C | |
| Arabic Date Separator | U+060D | |
| Arabic Semicolon | U+061B | |
| Arabic Question Mark | U+061F | |
| Arabic Percent Sign | U+066A | |
| Arabic Decimal Separator | U+066B | |
| Arabic Thousands Separator | U+066C | |
| Arabic Five Pointed Star | U+066D | |
| Arabic Full Stop (ウルドゥ語用) | U+06D4 | 
アラビア文字の数字は2種類が定義されています。
| 数字の名称 | Arabic Indic | Eastern Arabic-Indic | 
|---|---|---|
| コードポイント | U+0660~U+0669 | U+06F0~U+06F9 | 
| 0 | ||
| 1 | ||
| 2 | ||
| 3 | ||
| 4 | ||
| 5 | ||
| 6 | ||
| 7 | ||
| 8 | ||
| 9 | 
【参考資料】
・"Arabic Typography, a comprehensive sourcebook" (Huda Smitshujizen AbFares, Saqi Books, 2001, ISBN0863563473(pb))
・第10回多言語組版研究会配布資料(PDF)
・多言語組版研究会ホームページ
・アラビア系文字
・「アラビア系文字の基礎知識」
なお、アラビア文字は右から左に書きますが、数字は左から右に書きます。また、ラテン文字用の句読点、あるいは数字を共用します。右から書き表す文字や記号と、左から書き表す文字や記号が混在すると、画面表示や印刷時の、文字の進行方向を決定するのが複雑になります。Microsoft Word のようなWYSIWYGのワープロを使って書くとわけがわからなくなってしまうようです。このような表記の問題については、別途、改めて検討したいと思います。
投票をお願いいたします