« 2005年12月19日 | メイン | 2005年12月21日 »
2005年12月20日
PDFと文字(7) – JISの文字規格
日本では、日本工業規格(JIS: Japanese Industrial Standard)で定めている文字集合についての規格があります。
現在、日本独自の規格として、次の4つの規格があります。
JIS X 0201 7ビット及び8ビットの情報交換用符号化文字集合
JIS X 0208 7ビット及び8ビットの2バイト情報交換用符号化漢字集合
JIS X 0212 情報交換用漢字符号-補助漢字
JIS X 0213 7ビット及び8ビットの2バイト情報交換用符号化拡張漢字集合
それから、ISO 10646という国際規格の日本語版として、JIS X 0221 国際符号化文字集合 (UCS) -第1部:体系及び基本多言語面
があります。
JIS X 0201は、ラテンアルファベットや記号類、およびカタカナ文字を定めています。ラテンアルファベットと記号類についてはISO 646をベースに一部の文字を日本特有にし、さらに独自にカタカナを追加したものです。
実用上、大きな問題は、ISO 646でバックスラッシュを定義していた文字番号を、X 0201では円記号を定義するように代えてしまったことでしょう。このため、X 0201は完全な国内規格であってインターネット時代には不適切です。日本語で円マークを書いたつもりでも、海外の人がみたらバックスラッシュになってしまうからです。
JIS X0208は、漢字類を定める基本的な規格で、
1978年に第一次規格 JIS C 6226-1978
1983年の第二次規格 JIS C 6226-1983(1987年にX 0208に移行)
1990年の第三次規格 JIS X 0208-1990
1997年の第四次規格 JIS X 0208-1997
と改訂されてきました。第二次規格で文字の番号の入れ替え(第一水準、第二水準間)を行い、罫線記号や特殊文字類71文字、漢字4文字の追加を行ったために1980年代後半には、旧JIS、新JISというような言葉が生まれるなど大きな混乱をもたらしました。
1990年の第三次規格でさらに2文字を追加して、合計文字数は6,879文字になりました。第四次規格では文字の番号や追加削除は行わず、規定の明確化に努めたとされています。
JIS X 0201 とJIS X 0208を同時に使うための工夫として、マイクロソフトなどが考案したのが、シフトJISコードです。
JIS X 0208-1997ではじめて、シフトJISコードを、JIS規格(付属書)として定めました。
なお、マイクロソフトのアプリケーションが出力するシフトJISは、丸囲数字などNEC拡張文字やIBM拡張漢字などJIS X 0208にない文字を追加しています。従って、厳密には、JIS規格で定めているシフトJISコードとは異なるものです。マイクロソフトのアプリケーションが出力するシフトJISコードの正式名は、Windows-31Jです。
参考
日本工業標準調査会