« 2007年02月05日 | メイン | 2007年02月07日 »
2007年02月06日
テキストファイル考(1) — テキスト系データとは
Wikipediaを読んでいたら、テキストファイル、プレーンテキスト、バイナリファイル、マルチスタイルテキスト(この言葉は、私は始めて見ました。)というような用語の説明が出てきて、私の考えとは少し違うなと思うところがありますので、自分なりの考えをちょっと整理して見ました。
まず、最初に私の考えを簡単にまとめてみます。
1.コンピュータで扱うデータ
コンピュータで扱うデータを大きく分けると、人間の目でみて理解できる文字列で表すデータとプログラムでしか理解できないデータがあります。これを、一応、テキスト系データとバイナリ系データと分けて見ます。
テキスト系データをさらに分けますと、次のようなものがあるだろうと思います。例えば、数式、ベクトルグラフィックス、さらにはPostscriptやPDFを持ち出し始めますと、実際のところ、テキスト系データとバイナリ系データの区分はかなり曖昧なように思います。
時代の流れとしてテキスト系データ、とりわけ書式付テキストデータの表現方法が非常に豊かになってきたことが挙げられます。20世紀はTeX、RTF、CGMのような制御単語とコンテンツ・テキストが混在していた方式が中心でしたが、21世紀はXMLのような制御単語をメタ言語で表現して、コンテンツ・テキストをマークアップする方式に移行しています。
オフィス文書の表現方法としてOffice Open XMLが出てきたこともその一つです。RTFは21世紀にはWordprocessingMLにとって代わられることになるのでしょう。
また、あえて言えば、数式表現としてのTeXは、だんだんMathMLに、そして文章表現としてのTeXはXSL-FOにとって代わられることになるものと思います。
PDFもどちらかというと20世紀の技術に属すると思います。大胆に予測しますと、いづれは、PDFのXML表現(Mars)、またはXPSの時代が来るのではないかと思います。
投票をお願いいたします