« 2007年02月05日 | メイン | 2007年02月07日 »

2007年02月06日

テキストファイル考(1) — テキスト系データとは

Wikipediaを読んでいたら、テキストファイル、プレーンテキスト、バイナリファイル、マルチスタイルテキスト(この言葉は、私は始めて見ました。)というような用語の説明が出てきて、私の考えとは少し違うなと思うところがありますので、自分なりの考えをちょっと整理して見ました。

まず、最初に私の考えを簡単にまとめてみます。

1.コンピュータで扱うデータ
コンピュータで扱うデータを大きく分けると、人間の目でみて理解できる文字列で表すデータとプログラムでしか理解できないデータがあります。これを、一応、テキスト系データバイナリ系データと分けて見ます。
20070206-1.PNG

テキスト系データをさらに分けますと、次のようなものがあるだろうと思います。例えば、数式、ベクトルグラフィックス、さらにはPostscriptやPDFを持ち出し始めますと、実際のところ、テキスト系データとバイナリ系データの区分はかなり曖昧なように思います。

20070206-2.PNG

時代の流れとしてテキスト系データ、とりわけ書式付テキストデータの表現方法が非常に豊かになってきたことが挙げられます。20世紀はTeX、RTF、CGMのような制御単語とコンテンツ・テキストが混在していた方式が中心でしたが、21世紀はXMLのような制御単語をメタ言語で表現して、コンテンツ・テキストをマークアップする方式に移行しています。

オフィス文書の表現方法としてOffice Open XMLが出てきたこともその一つです。RTFは21世紀にはWordprocessingMLにとって代わられることになるのでしょう。

また、あえて言えば、数式表現としてのTeXは、だんだんMathMLに、そして文章表現としてのTeXはXSL-FOにとって代わられることになるものと思います。

PDFもどちらかというと20世紀の技術に属すると思います。大胆に予測しますと、いづれは、PDFのXML表現(Mars)、またはXPSの時代が来るのではないかと思います。

投票をお願いいたします

投稿者 koba : 08:00 | コメント (0) | トラックバック