I love software2!

ハーバード大学の電子ジャーナルアーカイブプロジェクトの調査報告 (E-JOURNAL ARCHIVE DTD FEASIBILITY STUDY）を一読した。
・http://www.diglib.org/preserve/hadtdfs.pdf
この調査は、昨日話題としたNLM DTDの開発にあたって、標準的なアーカイブDTDが設計できるかどうかを検討するために行なったもので、Elsevier, Blackwell, BioOne, Nature, HighWireなど10出版社が作っているジャーナルのためのDTDとそのDTDによってマークアップしたジャーナルの記事のサンプルを集めて比較検討したものである。
　
いささか古いが、実証的な内容であり、XMLのDTDを設計したり運用したりする際には大変参考になる。また、コンテンツとスタイルの分離における生成コンテンツの扱いについても考えさせられる。
重要と感じた点をいくつか紹介する。（なお、レポートの本文中でSGMLと書かれている点を以下ではXMLと言い換えている。）
（１）XMLでは形式よりも意味でコンテンツにマークアップすることで、形式指示と構造情報を分離する。この際、どこまで分離するかで方針が分かれる。具体的には定型語句、カウンター（章番号、節番号、図番号など）、ラベル（箇条書きの記号など）、句読点などの扱いである。もし、これらを形式として内容から分離し、スタイルシートで生成するならば、XMLインスタンスをスタイルシート抜きで配布すると、最終の見栄えが分からなくなる。これに対して、定型語句などをXMLインスタンスに残しておけば、スタイルシートを一緒に配布しなくても良くなる。
（２）10社のDTDの中でWileyのものがもっとも複雑で、基本要素250個、表7個、数式7個（数式はTeXで記述しており、これをラップするXML要素が7個）の合計264要素で、簡単なDTDは100～130個である。実際のサンプル記事での要素の使用率は50%程度以下であった。その要素の1/4から半分が前付けの中で使われている。記事にしめる前付けの分量は少ないが要素の利用は前付けに集中している。
各社のジャーナル記事では次のような項目が様々に表現されており、ジャーナル記事をアーカイブするためのXMLではその内容の保持を検討する必要がある。
（１）定型文と生成テキスト　―　例）図のキャプションにおける番号、引用のテキスト
（２）論文のヘッダと前付け　―　表題、著者（姓と名の分離、順序）、著者の所属とリンク、付随する著者の参照情報、要約、脚注、略称と定義、著作権
（３）その他の前付け　―　記事の履歴（受付日など）、キーワード
（４）メタデータ要素　―　出版社の名前・住所、ジャーナルのタイトル・略称・ID・ISSN・Coden、出版に関するもの（巻・号・番号・先頭ページ・最終ページ・発行日・価格）、記事の識別のためのメタデータ、記事のメタデータ（タイトル・記事の種類・図の数・表の数・数式の数・参照の数・ページ数・ワード数・言語）、スポンサー、目次情報（見出し・トピック・主題）、DTD情報（DTD名、バージョン）
（５）記事のヘッダー
（６）本文要素　―　節見出し、リスト、テキストボックス、図、図の著作権、整形済みテキスト、Q&A
（７）オブジェクト配置　―　固定またはフロート
（８）後付け　―　謝辞、付録、参考、用語、査読者の注、履歴
（９）参考文献
（１０）表
（１１）数式
この調査はNLM DTDを設計する前、すなわち様々なジャーナル出版社がばらばらにジャーナル用DTDを設計して利用していた時期のものであり、ＮＬＭができた現在では、統一化が進んでいるのだろう。
最後のほうに、Ｗｉｌｅｙが、ジャーナルの記事をＳＧＭＬ化するにあたって、データの妥当性をどのように確保するかについていろいろと行なった対策が紹介されている。マークアップの基準をつくるだけでなく、日々のデータ作成においてその基準に準拠させるために苦労していたようだ。