PDF　千夜一夜: 2007年02月08日アーカイブ

« 2007年02月07日 | メイン | 2007年02月09日 »

2007年02月08日

テキストファイル考(3) — XMLの場合

さて、具体的な例として、XMLを取り上げて見ます。

拡張可能なマーク付け言語 (XML) 1.0

によると、XML文書の構成は、次のように規定されています。

「XML文書は実体という記憶単位から成り，実体は構文解析されるデータ又は構文解析されないデータから成る。構文解析されるデータは，文字から成り，その一部は文字データを構成し，一部はマーク付けを構成する。」

これを見ますと、XMLの構成単位の中心は、文字のみのデータ（テキスト系データ）であることが分かります。

そして、構文解析されないデータについては、次のように書かれています。

「解析対象外実体は，内容がテキストでもそうでなくともよいリソースとする。」ということで、XML文書にはバイナリ系データを含んで良いということになります。

そして、テキストとは次のように定義されています。

●テキストは、文字の並びであって，マーク付け又は文字データを表してもよい。
●文字は，テキストの最小単位であって，[ISO/IEC 10646]に規定されている。使用できる文字は，タブ，改行，復帰及び(Unicode及びISO/IEC 10646に規定する)図形文字とする。

XMLの実体は、ファイルなどの形で保存されたり、交換されますが、そのとき、どういう方法で保存されるかが、文字符号化方式です。

「XML文書内の外部解析対象実体は，それぞれ別の文字符号化方式を用いてもよい。すべてのXMLプロセサは，UTF-8で符号化した実体，及びUTF-16で符号化した実体を処理できなければならない。」

例えば、Unicodeでは、文字に固有の番号を割り当てています。この番号は、Unicodeのコードポイントであって、ファイルなどに書くときは、符号化方式という計算式をつかって、別の番号のシーケンスにして交換します。Unicodeには、多数の符号化方式が提唱されていますが、一番ポピュラーなのが、UTF-8またはUTF-16となります。

投票をお願いいたします

投稿者 koba : 08:00 | コメント (0) | トラックバック

PDF 千夜一夜

PDFなんでも情報ブログ by アンテナハウス株式会社

2007年02月08日

テキストファイル考(3) — XMLの場合

PDF　千夜一夜