« 2005年12月17日 | メイン | 2005年12月19日 »

2005年12月18日

PDFと文字(6) – 地域別文字規格

文字に関する標準規格には、主に各国の機関が定めている国別標準が昔から使われてきました。

一番古くから使われていて、有名なものにASCIIコードがあります。ASCIIコードはアルファベットを含む128種類の文字を定義しています。

ASCIIコードをベースに国際標準化したものが、ISO 646です。これはさらに、主に西欧言語用に文字コードを拡張してISO 8859シリーズとなっています。(下の表では、Latin Alphabet, Latin/ と表記したもの)。

これとは別に日本ではJISの文字コード規格があり、中国、台湾、韓国などでも同様の文字コード規格が定められています。

下の表に世界の言語に使われる地域別文字規格について、簡単にまとめてみました。

言語コード 言語名称 言語名称(日本語) 使用する文字の種類 地域別文字規格
ar Arabic アラビア語 Arabic ASMO 449, Latin/Arabic Alphabet
bg Bulgarian ブルガリア語 Cyrillic Latin/Cyrillic Alphabet
zh-CN Chinese(Simplified) 北京中国語(標準中国語マンダリン) 簡体字(漢字) GB2312, GB18030
zh-TW Chinese(Traditional) 中国語 繁体字(漢字) BIG5
hr Croatian クロアチア語 Latin Latin Alphabet No.2,10
cs Czech チェコ語 Latin Latin Alphabet No.2
da Danish デンマーク語 Latin Latin Alphabet No.1,4,5,6,8,9
nl Dutch オランダ語 Latin Latin Alphabet No.1,5,9
en English 英語 Latin Latin Alphabet No.1..10
et Estonian エストニア語 Latin Latin Alphabet No.4,6,7,9
fi Finnish フィンランド語 Latin Latin Alphabet No.4,6,7,9,10
fr French フランス語 Latin Latin Alphabet No.9,10
de German ドイツ語 Latin Latin Alphabet No.1..10(7除く)
el Greek ギリシャ語 Greek Latin/Greek Alphabet
he Hebrew ヘブライ語 Hebrew Latin/Hebrew Alphabet
hu Hungarian ハンガリー語 Latin Latin Alphabet No.2,10
is Icelandic アイスランド語 Latin Latin Alphabet No.1,6,9
id Indonesian インドネシア語 Latin Latin Characters
it Italian イタリア語 Latin Latin Alphabet No.1,3,5,8,9,10
ja Japanese 日本語 Latin、漢字、かな、カタカナ JIS X0201, JIS X0208, JIS X0212
kk Kazakh カザフ語 Cyrillic Extended Latin/Cyrillic Alphabet (Cyrillic Asean)
ko Korean 韓国語 ハングル、漢字 KS C5601, KS X1001, Johab
lv Latvian ラトビア語 Latin Latin Alphabet No.4,7
lt Lithuanian リトアニア語 Latin Latin Alphabet No.4,6,7
no Norwegian ノルウェー語 Latin Latin Alphabet No.1,4..9
fa Persian(Farsi) ペルシャ語 Arabic Extended Latin/Arabic Alphabet (Arabic Character 28+ Original 4 Characters)
pl Polish ポーランド語 Latin Latin Alphabet No.2,7,10
pt Portuguese ポルトガル語 Latin Latin Alphabet No.1,3,5,8,9
ro Romanian ルーマニア語 Latin Latin Alphabet No.10
ru Russian ロシア語 Cyrillic koi8-r, Latin/Cyrillic Alphabet 32 Chars (not compatible with Ukrainian)
sr Serbian セルビア語 Cyrillic Latin/Cyrillic Alphabet (Serbian)
sk Slovak スロバキア語 Latin Latin Alphabet No.2
sl Slovenian スロベニア語 Latin Latin Alphabet No.2,4,6,10
es Spanish スペイン語 Latin Latin Alphabet No.1,5,8,9
sv Swedish スウェーデン語 Latin Latin Alphabet No.1,4,5,6,8,9
th Thai タイ語 Thai TIS 620, Latin/Thai Alphabet
tr Turkish トルコ語 Latin Latin Alphabet No.5
uk Ukrainian ウクライナ語 Cyrillic koi8-u, Latin/Cyrillic Alphabet 33 Chars
vi Vietnamese ベトナム語 Latin Extended Latin Characters

言語コードは国際標準化機関ISOが、ISO 639規格を定めています。主に2文字コードが使われていますが、現在は、より多くの言語を表すことができるように3文字コードも決まっています。

参考資料
「bit別冊 インターネット時代の文字コード」 (小林 龍生ほか、共立出版、2001年4月号)

投票をお願いいたします

投稿者 koba : 08:00 | コメント (0) | トラックバック