« 2008年02月29日 | メイン | 2008年03月02日 »

2008年03月01日

電子文書と紙文書 考

昨日、「紙文書と電子文書を同列に並べて議論するのは、本質的に違うものを比較しようとしているのではないか。」と申し上げましたが、このことについて、もう少し考えてみました。

人間が紙に文字を書くのは、脳や手の中はともかく、大変単純な行為だと思います。これに対して、デジタルデータが紙に可視化される過程は、かなり複雑です。次の絵をご覧ください。
20080301.PNG
これは、テキスト中心のデジタル・データ(以下、これを「電子文書」と総称します)が可視化されるまでの流れを大雑把に書いたものです。

まず、電子文書には大きく分けると3種類があると思います。
1.ワープロの文書、DTPソフトのデータのようにアプリケーションと不可分、コンテンツとレイアウト(書式)情報が渾然一体となったバイナリ形式のデータ
2.レイアウト情報をもたないデータ。XML、CSV、あるいは、EDIの中を流れる取引データなど。
3.PDF、XPS。デジタルの紙ともいえる可視化された状態を電子ファイル化したもの。

1~3によって可視化の処理がかなり異なります。

まず、ワープロやDTPのバイナリデータですが、これはアプリケーションと不可分になっているため、可視化するには、その電子文書を作成したアプリケーションが必要です。元のアプリケーションがなければ、正しく可視化できません。場合によっては、アプリケーションのバージョンが異なると可視化した結果が異なってしまいます。例えば、Microsoft Wordでは、異なるバージョンで作成した電子文書を読むと、文書のレイアウトが崩れてしまうことがあります。これは、実際に経験された方も多いと思います。

次に、レイアウト情報をもたない内容だけの情報。これを可視化するには、外部からレイアウト定義情報を与える必要があります。例えば、XMLにレイアウト指定を与える標準的方法として、XSL-FOとかCSSがあります。CSVのような情報では、なんらかの定義を与えて、可視化する必要があります。このような電子文書は、アプリケーションからは独立ですが、レイアウト定義によって、可視化結果が異なるということになります。

PDFやXPSは、プリンタ装置を使って紙に可視化するプログラム(手続き)を電子ファイル化したものということができます。このプログラム言語をPDL(Page Description Language)と言います。その手続き(PDL仕様)が、標準として公開されていれば、比較的標準的な可視化ソフト(ビューア)を作ることができます。しかし、DocuWorksのように、非公開のものもあります。

このように、電子文書というのは非常に幅広い概念であり、多くの場合、電子文書の見え方はそれを可視化するアプリケーションや装置に依存している、ということに注意しなければなりせん。

投票をお願いいたします

投稿者 koba : 08:00 | コメント (0) | トラックバック