« PDFと文字(5) – テキストを構成する文字 | メイン | ブラウザで表示できる文字符号化の例 »
2005年12月18日
PDFと文字(6) – 地域別文字規格
文字に関する標準規格には、主に各国の機関が定めている国別標準が昔から使われてきました。
一番古くから使われていて、有名なものにASCIIコードがあります。ASCIIコードはアルファベットを含む128種類の文字を定義しています。
ASCIIコードをベースに国際標準化したものが、ISO 646です。これはさらに、主に西欧言語用に文字コードを拡張してISO 8859シリーズとなっています。(下の表では、Latin Alphabet, Latin/ と表記したもの)。
これとは別に日本ではJISの文字コード規格があり、中国、台湾、韓国などでも同様の文字コード規格が定められています。
下の表に世界の言語に使われる地域別文字規格について、簡単にまとめてみました。
言語コード | 言語名称 | 言語名称(日本語) | 使用する文字の種類 | 地域別文字規格 |
---|---|---|---|---|
ar | Arabic | アラビア語 | Arabic | ASMO 449, Latin/Arabic Alphabet |
bg | Bulgarian | ブルガリア語 | Cyrillic | Latin/Cyrillic Alphabet |
zh-CN | Chinese(Simplified) | 北京中国語(標準中国語マンダリン) | 簡体字(漢字) | GB2312, GB18030 |
zh-TW | Chinese(Traditional) | 中国語 | 繁体字(漢字) | BIG5 |
hr | Croatian | クロアチア語 | Latin | Latin Alphabet No.2,10 |
cs | Czech | チェコ語 | Latin | Latin Alphabet No.2 |
da | Danish | デンマーク語 | Latin | Latin Alphabet No.1,4,5,6,8,9 |
nl | Dutch | オランダ語 | Latin | Latin Alphabet No.1,5,9 |
en | English | 英語 | Latin | Latin Alphabet No.1..10 |
et | Estonian | エストニア語 | Latin | Latin Alphabet No.4,6,7,9 |
fi | Finnish | フィンランド語 | Latin | Latin Alphabet No.4,6,7,9,10 |
fr | French | フランス語 | Latin | Latin Alphabet No.9,10 |
de | German | ドイツ語 | Latin | Latin Alphabet No.1..10(7除く) |
el | Greek | ギリシャ語 | Greek | Latin/Greek Alphabet |
he | Hebrew | ヘブライ語 | Hebrew | Latin/Hebrew Alphabet |
hu | Hungarian | ハンガリー語 | Latin | Latin Alphabet No.2,10 |
is | Icelandic | アイスランド語 | Latin | Latin Alphabet No.1,6,9 |
id | Indonesian | インドネシア語 | Latin | Latin Characters |
it | Italian | イタリア語 | Latin | Latin Alphabet No.1,3,5,8,9,10 |
ja | Japanese | 日本語 | Latin、漢字、かな、カタカナ | JIS X0201, JIS X0208, JIS X0212 |
kk | Kazakh | カザフ語 | Cyrillic | Extended Latin/Cyrillic Alphabet (Cyrillic Asean) |
ko | Korean | 韓国語 | ハングル、漢字 | KS C5601, KS X1001, Johab |
lv | Latvian | ラトビア語 | Latin | Latin Alphabet No.4,7 |
lt | Lithuanian | リトアニア語 | Latin | Latin Alphabet No.4,6,7 |
no | Norwegian | ノルウェー語 | Latin | Latin Alphabet No.1,4..9 |
fa | Persian(Farsi) | ペルシャ語 | Arabic | Extended Latin/Arabic Alphabet (Arabic Character 28+ Original 4 Characters) |
pl | Polish | ポーランド語 | Latin | Latin Alphabet No.2,7,10 |
pt | Portuguese | ポルトガル語 | Latin | Latin Alphabet No.1,3,5,8,9 |
ro | Romanian | ルーマニア語 | Latin | Latin Alphabet No.10 |
ru | Russian | ロシア語 | Cyrillic | koi8-r, Latin/Cyrillic Alphabet 32 Chars (not compatible with Ukrainian) |
sr | Serbian | セルビア語 | Cyrillic | Latin/Cyrillic Alphabet (Serbian) |
sk | Slovak | スロバキア語 | Latin | Latin Alphabet No.2 |
sl | Slovenian | スロベニア語 | Latin | Latin Alphabet No.2,4,6,10 |
es | Spanish | スペイン語 | Latin | Latin Alphabet No.1,5,8,9 |
sv | Swedish | スウェーデン語 | Latin | Latin Alphabet No.1,4,5,6,8,9 |
th | Thai | タイ語 | Thai | TIS 620, Latin/Thai Alphabet |
tr | Turkish | トルコ語 | Latin | Latin Alphabet No.5 |
uk | Ukrainian | ウクライナ語 | Cyrillic | koi8-u, Latin/Cyrillic Alphabet 33 Chars |
vi | Vietnamese | ベトナム語 | Latin | Extended Latin Characters |
言語コードは国際標準化機関ISOが、ISO 639規格を定めています。主に2文字コードが使われていますが、現在は、より多くの言語を表すことができるように3文字コードも決まっています。
参考資料
「bit別冊 インターネット時代の文字コード」 (小林 龍生ほか、共立出版、2001年4月号)
投稿者 koba : 2005年12月18日 08:00
トラックバック
このエントリーのトラックバックURL:
http://blog.antenna.co.jp/PDFTool/mt-tbng2.cgi/89