日別アーカイブ: 2016年1月17日

多くの文書は目的に応じた構造を持つ。その構造を明示化したのが構造化文書

構造化文書とは、文書の構造に対して、XMLなどのタグをつかって明示的にマークアップしたものです。つまり、

構造化文書の要件は、①構造がある、②明示的なマークアップがある、の二つです。

構造化文書=XML文書と考えると、XMLという言葉が優先しそうです。しかし、そうではなく、目的に応じて構造を明確化することが大事です。

文書の構造について考えてみます。前回(あらゆる文書には構造がある?)は、出版された書籍には編集者が付けた構造がある、ということを書きました。

書籍は編集者という役割の人がいます。しかし、編集者がいなくても、構造について考えつつ文書を書くのは、一般的に行われています。書籍に限らず、多くの文書は目的に応じた構造を備えていると言えるでしょう。

例えば、報告書の執筆者・作成者は、読み手に伝わりやすい、より効果的で説得力のある報告書とするためには、どのような構成にしたら良いかなどを考えるはずです。論文の場合は、主張をより科学的、合理的な内容としたり、引用の典拠を明確するために提出機関ごとに詳しい執筆要綱があり、構成や記述の枠組みが決められています。ビジネス・レターや見積書など、簡単な文書にも適切な様式があります。

構成・要領・様式は構造の一種です。このように考えますと、多くの文書は多かれすくなかれ構造をもつと言って良いでしょう。文書の構造は、該当する記述内容の役割・意義をわかりやすくします。

初回(構造化文書とは何か?)で、階層化された見出しによって、文章の持つ意味や重要度を差別化でき、読み手に意味の重要度が伝わるという説明をしました。これは構造を付けるメリットの一つの典型です。

構造化文書の標準には、HTML、DITA、DocBook、JATSなど様々あります。これらは皆、第一に目的または応用領域を定めて、その目的に応じて構造がどうあるべきかを詳細に分析します。さらに、構造をタグで表す方法を規定しています。

構造化文書の標準で規定されたタグを使って、文書にマークアップする作業が、構造を明示する作業です。この作業は、多くの場合、XMLのエディタを使って手作業で行います。しかし、マークアップ前の文書が決められた構造をもつのならば、プログラムで自動的にマークアップできるでしょう。

ところで、昔次のようなブログを書きました。
コンテンツの構造化とは何か? 構造化の目的、手段は? Word文書のスタイル付けとマークアップの関係
いま、読み返しますと、型にはめた文書を構造化文書という、というのはすこしばかり考えが狭すぎたようです。多くの文書には構造があり、構造をより明確化し、マークアップしたものが、構造化文書という、と改めたいと思います。

○前のブログ
あらゆる文書には構造がある?
構造化文書とは何か?

○関連ブログ
CAS記法のマークアップがなぜ必要なのかー図版とキャプションの例
コンテンツの構造化とは何か? 構造化の目的、手段は? Word文書のスタイル付けとマークアップの関係




アウトライナー
PDFを解析して しおり・目次を自動生成


瞬簡PDF 変換 2024
PDFをOffice文書へ高精度変換