« 2007年01月29日 | メイン | 2007年01月31日 »
2007年01月30日
文字コード — 符号化文字集合と符号化方式
たまたま、フリー百科事典『ウィキペディア(Wikipedia)』の「テキストファイル」の項を見ていたら、文字コードという項がありますが、内容に訂正する方が良いと思われる箇所があります。
「また、英数以外の文字は言語ごとに異なる文字コードが使われているため、英語以外の複数言語を混在させることは。。」
「日本語では次の3種類の文字コードがあり、文字化けなどの問題が多発する原因となっている。」として、ISO-2022-JP、Shift JIS、EUC-JPを挙げています。
次に、「Unicodeは、日本語も含めた世界中のすべての文字を1つの文字コードで表すための規格である。Unicodeが広く普及することで、英数字以外の文字を扱うときの互換性を高め、また多言語が混在する文書が容易に作成できるようになることが期待されている。
しかし、現在のUnicodeは普及途上ということもあり、新しい文字コードがさらに増えたことにより混乱が増している一面もある。」
上の説明の中の問題を挙げます。
1.文字と言語を明確に区別していない
例えば、英語はラテンアルファベットを使って記述しますが、フランス語やドイツ語もラテンアルファベットを使って記述します。
アラビア語はアラビア文字を使って記述しますが、アラビア文字で表す言語には、他にペルシャ語、ウルドゥ語(パキスタン)、現代ウイグル語の表記にも使われます。
このあたりは、以下を参照してください。
2005年12月12日 PDFと文字(1) – 言語と文字
2005年12月13日 PDFと文字(2) – 言語と文字 続き
つまり文字と言語は1対1ではありません。但し、文字コードは20世紀には標準化が国単位で行われたため文字コードと言語が1対1対応になる傾向がありました。
2.符号化文字集合と符号化方式を明確に使い分けていない
・ISO-2022-JP、Shift JIS、EUC-JPは符号化方式の種類です。
・Unicodeは符号化文字集合の名前です。Unicodeの符号化方式としては、UTF-8、UTF-16などがあります。
ですので、ISO-2022-JP、Shift JIS、EUC-JPに対してはUTF-8、UTF-16などを対比させる必要があります。
符号化文字集合と符号化方式については、同じWikipediaの「文字コード」の項を参照してください。
フリー百科事典『ウィキペディア(Wikipedia)』は、便利なもので、皆でさらに充実していきたいものです。この「テキストファイル」の項は、少し書き直す方が良いように思います。
投票をお願いいたします