« 2011年09月11日 - 2011年09月17日 | メイン | 2011年09月25日 - 2011年10月01日 »

2011年09月18日 - 2011年09月24日 アーカイブ

2011年09月18日

ジャーナルのアーカイブのためのDTDの比較検討

ハーバード大学の電子ジャーナルアーカイブプロジェクトの調査報告 (E-JOURNAL ARCHIVE DTD FEASIBILITY STUDY)を一読した。

http://www.diglib.org/preserve/hadtdfs.pdf

この調査は、昨日話題としたNLM DTDの開発にあたって、標準的なアーカイブDTDが設計できるかどうかを検討するために行なったもので、Elsevier, Blackwell, BioOne, Nature, HighWireなど10出版社が作っているジャーナルのためのDTDとそのDTDによってマークアップしたジャーナルの記事のサンプルを集めて比較検討したものである。
 
いささか古いが、実証的な内容であり、XMLのDTDを設計したり運用したりする際には大変参考になる。また、コンテンツとスタイルの分離における生成コンテンツの扱いについても考えさせられる。

重要と感じた点をいくつか紹介する。(なお、レポートの本文中でSGMLと書かれている点を以下ではXMLと言い換えている。)

(1)XMLでは形式よりも意味でコンテンツにマークアップすることで、形式指示と構造情報を分離する。この際、どこまで分離するかで方針が分かれる。具体的には定型語句、カウンター(章番号、節番号、図番号など)、ラベル(箇条書きの記号など)、句読点などの扱いである。もし、これらを形式として内容から分離し、スタイルシートで生成するならば、XMLインスタンスをスタイルシート抜きで配布すると、最終の見栄えが分からなくなる。これに対して、定型語句などをXMLインスタンスに残しておけば、スタイルシートを一緒に配布しなくても良くなる。

(2)10社のDTDの中でWileyのものがもっとも複雑で、基本要素250個、表7個、数式7個(数式はTeXで記述しており、これをラップするXML要素が7個)の合計264要素で、簡単なDTDは100~130個である。実際のサンプル記事での要素の使用率は50%程度以下であった。その要素の1/4から半分が前付けの中で使われている。記事にしめる前付けの分量は少ないが要素の利用は前付けに集中している。

各社のジャーナル記事では次のような項目が様々に表現されており、ジャーナル記事をアーカイブするためのXMLではその内容の保持を検討する必要がある。

(1)定型文と生成テキスト ― 例)図のキャプションにおける番号、引用のテキスト
(2)論文のヘッダと前付け ― 表題、著者(姓と名の分離、順序)、著者の所属とリンク、付随する著者の参照情報、要約、脚注、略称と定義、著作権
(3)その他の前付け ― 記事の履歴(受付日など)、キーワード
(4)メタデータ要素 ― 出版社の名前・住所、ジャーナルのタイトル・略称・ID・ISSN・Coden、出版に関するもの(巻・号・番号・先頭ページ・最終ページ・発行日・価格)、記事の識別のためのメタデータ、記事のメタデータ(タイトル・記事の種類・図の数・表の数・数式の数・参照の数・ページ数・ワード数・言語)、スポンサー、目次情報(見出し・トピック・主題)、DTD情報(DTD名、バージョン)
(5)記事のヘッダー
(6)本文要素 ― 節見出し、リスト、テキストボックス、図、図の著作権、整形済みテキスト、Q&A
(7)オブジェクト配置 ― 固定またはフロート
(8)後付け ― 謝辞、付録、参考、用語、査読者の注、履歴
(9)参考文献
(10)表
(11)数式

この調査はNLM DTDを設計する前、すなわち様々なジャーナル出版社がばらばらにジャーナル用DTDを設計して利用していた時期のものであり、NLMができた現在では、統一化が進んでいるのだろう。

最後のほうに、Wileyが、ジャーナルの記事をSGML化するにあたって、データの妥当性をどのように確保するかについていろいろと行なった対策が紹介されている。マークアップの基準をつくるだけでなく、日々のデータ作成においてその基準に準拠させるために苦労していたようだ。

2011年09月19日

記述形式と配布形式の分離のこと(メモ)

昨日のハーバード大学の電子ジャーナルアーカイブプロジェクトの調査報告 (E-JOURNAL ARCHIVE DTD FEASIBILITY STUDY)を読んでいて意を強くしたこととして、XMLドキュメントの処理において、記述形式と配布形式を分離して考えるのは大きな意味がある。

記述形式は執筆・制作を効率的に行なうことを主な目的とする。そのためには例えば、章番号、節番号、図の番号、ページ番号などを執筆時には書かないでおく。執筆中に章の構成を変更すれば、章・節番号、図の番号などは変更になり、その場合、最初から番号をつけても振りなおしになるからである。
 
目次、索引、図表の一覧なども同様である。
このような内容は執筆が終わってから作成すればよい。
XMLでドキュメントを作成すれば、番号付けやドキュメントの加工のためのツールを準備するのは簡単である。
 
一方において、配布形式はそれを表示したときに、コンテキスト(内容)に関わる部分は、表示環境によらずに一定になってほしい。

現在、配布形式としては、PDFとHTMLがその双璧である。今後はEPUBなども用意するケースが増えるであろう。

PDFのようにレイアウトまで固定にする形式を採用する場合は、ページ番号まで固定化するしか、選択肢はない。しかし、HTMLで配布する場合であっても、章番号、節番号、図の番号は付与済みの形式で配布するほうが望ましい。また目次や索引なども同様で、可視化時にスタイルシートで生成するよりも、執筆を完了した時点で作成しておく方が良いのではないか。

コンテンツの制作にあたり、記述形式と配布形式を分離し、記述形式から配布形式には自動変換するという方式は原理的にみて優れていると思う。

CAS-UBによる執筆ではそのような考えを採用している。

●執筆時
例えば他のエントリーの見出しをID参照するときは

[[##e.201108091833.参照先のエントリー]]

このように記述する。e以下は見出しのIDである。これは、
執筆中にプレビューすると次のようになる。

<a href="201108091833.html#e.201108091833.参照先のエントリー">201108091833:参照先のエントリー</a>

最後にPDFに出力したときに、

第1 章 参照先のエントリー(p.1)

となる。


●CAS-UB
http://www.cas-ub.com/


2011年09月20日

紅櫻楓軟件有限公司在北京!

こんにちは。

先日 米国の Antenna House,Inc.をご紹介いたしましたが、本日は中国の当社子会社「北京紅櫻楓軟件有限公司(HYFsoft)」を紹介させていただきます。

1997年2月設立で、設立時に取得した15年間の営業許可の延長手続きが先日完了したところです。現在の事務所は北京市中心から北東方向、空港から市内に向かって、四環路のちょっと外側、という場所にあります。

設立当初の業務は、アンテナハウス(中国のWeb上では、安特納軟件公司などと表記されています)が開発・販売するソフトウェアのパーツにあたる部分の受託開発が100%でした。「Antenna House Formatter」も誕生前で、当時のアンテナハウスの主力製品はワープロ文書の変換の「リッチテキストコンバータ」でした。これに組み込まれる変換プログラムの開発がメインでした。

それから15年、オリンピックの開催などもあり、事務所からの風景も変わりました。当時は市内を走る車も黒塗りのセダンばかりだったように記憶していますが、今は、かなりカラフルになってきています。
当初より、日本人のスタッフは置かず、中国の人だけで今日まで運営してもらっています。現在の社員は30人強、アンテナハウスからの受託の中心はワープロの変換エンジンからPDF製品関係に変わりました。名称にPDFと付く当社製品の各種製品のいろいろな部分で使用されています。

中国の会社といいますと人の入れ替わりが激しいのが常のようですが、ここでも同じです。そのような中でも、中国国内ユーザ向けの受託開発がアンテナハウスからの受託を上回るようになってきました。また、開発業務のほかに、アンテナハウス製品の中国国内販売も担当しています(こちらの成績については、社長から発破をかけられることも多いですが。中国でのソフトウェア販売はなかなか難しいようです)。

現在の中国国内ユーザ向けの開発は、PDFを中心とした、各種形式のファイルの表示や変換といったところで、表示プログラムは、大手メーカにも採用してもらい、各社の電子ブックリーダ、携帯電話に組み込まれています(日本のアンテナハウスより先にAndroid に対応していたりします)。

PDFのサードパーティ各社の事務所も北京にあり、競争も激しくなってきています。その中でより良い製品を開発して行きたいものです。

2011年09月21日

AH FormatterとFormatter Clubをよろしく

こんにちは。XML自動組版ソフト AH Formatter の開発担当です。いつもは「CSS組版ブログ」にいるのですが、今日はアンテナハウスのメインのこのブログに進出です。

このブログでも案内がありましたが、AH Formatter とその関連技術(XSL、CSS、XML 多言語組版など)に関心をもっていただいている皆様と開発者とをつなぐコミュニティとして“Formatter Club”を7月に発足し、先週9月16日に第2回定例会を開催しました。私からは、AH Formatter V6の紹介(この資料もXHTML+CSSでAH Formatterで組版)と、いくつかのサンプル文書をAH Formatterで組版して見せるデモを行いました。

お見せしたデモは次のものです:

  • 米国国税庁の案件のためのテストデータ

    段組のページに段をまたがる図表の配置が多用されています。たとえば3段組のページの右下に2段抜きで表があるなど。

  • W3C技術ノート「日本語組版処理の要件」

    これの第2版が公開準備中で、その書籍版の組版をAH Formatterで行います。データはXHTML+CSSですが、AH Formatter拡張を含むページ組版用のCSSスタイルシートを指定しています。V6でのfloat拡張を利用することにより、図版の配置が最適化され、従来のXML自動組版では図版が多いとページに余分なアキが生じやすかった問題が解消されています。

  • 青空文庫のXHTMLを縦書きのCSS指定で

    縦書きで、文庫本のような体裁になるように柱やノンブルをつけています。図版はV6の拡張floatを利用して、天・小口寄りに自動的に配置しています。AH Formatterが、縦書き青空文庫ビューアーになるというデモです。

このようなデモをするとき、AH FormatterのWindows版GUIアプリケーションは便利です。AH Formatterはサーバー上のシステムに組み込まれて利用されることが多いのですが、このWindows版アプリケーションは、手軽にAH Formatterの組版を試すために使えます。
(AH Formatterはマルチプラットフォームであり、Windows以外に、Mac OS X、Linux、各種Unix系のOS用のものがあります。いまのところWindows版のみGUIアプリケーションを用意しています)

Windows版AH Formatterアプリの動作は、Webブラウザに似ています。HTMLやXMLのURLを指定すると組版がはじまりページが表示されます。ファイルをWindowsエクスプローラからドラッグ&ドロップでAH Formatterに与えることもできます。また、Webブラウザのアドレスバーのアイコンをドラッグ&ドロップしてブラウザで開いているURLをAH Formatterで開くこともできます。

AH Formatterの上級ユーザーにも意外に知られていないのは、文書ファイル(HTMLまたはXML)と、スタイルシート(CSSまたはXSL)を別々にAH Formatterにドラッグ&ドロップすることも出来るということです。文書とスタイルシートを同時にドラッグ&ドロップすると、両方組み合わせて組版されますが、はじめに文書をドラッグ&ドロップ、次にスタイルシートをドラッグ&ドロップ、あるいはその逆の順番で行うこともできます。

青空文庫のXHTMLファイルをAH Formatter V6拡張入りのCSSを指定して組版するデモでは、まず青空文庫のXHTMLだけをAH Formatterにドラッグ&ドロップしました。そうすると、Webブラウザで表示するのと同じように、青空文庫XHTMLにもともと指定されているCSSだけでまず組版された結果が表示されます。そこに、CSSファイル aozora-ah.css をドラッグ&ドロップすると、こんどはそのCSSを使っての組版に変わります。さらに別のスタイルシートをドラッグ&ドロップしてスタイルを切り替えるといったこともできます。

どうでしょう? まだAH Formatterを試していない方も、試してみようという気になりませんか?
AH Formatterは評価版をダウンロードして試してみることが可能です。おすすめなのは、Formatter Clubに入ることです。そうすると、開発中の最新版のAH Formatterをダウンロードしてお試しいただけます。Formatter Clubには、AH Formatterのベテランユーザーや組版のプロたちも集まっていて、MLや定例会でノウハウを交換して知識を広げることができます。

ということでAH Formatterと、Formatter Clubをどうぞよろしく。それから「CSS組版ブログ」のほうもよろしく。

2011年09月22日

シンクライアントでPDF変換~「瞬簡PDF4」

アンテナハウスでは、より幅広い環境でご利用いただけるよう、2011年6月末よりデスクトップ製品のシンクライアント対応ライセンスの販売を開始し、各シンクライアント環境での動作確認を進めています。

本日は、「瞬簡PDF4」を Windows Server のターミナルサービス環境でご利用いただくにあたってのポイントをご紹介したいと思います。

1) 導入時のポイント~プリンターの複製

「瞬簡PDF4」のPDF作成は、Office等のアプリケーションからそのアプリケーションの文書を、仮想プリンター(Antenna Houe PDF Driver 5.0)へ印刷することで PDF ファイルに変換しています。

瞬簡PDF4からプリンターへ印刷

サーバーOS へのインストールはクライアントOSと基本的に同じなのですが、ターミナルサービス環境でご利用いただくには、インストール後、この「仮想プリンター」をいくつか複製しておく必要があります。

ターミナルサービス環境では、複数のユーザーの「瞬簡PDF4」が同時にPDF作成をおこなうと、この印刷がサーバーOS上で同時に行われることになります。

このとき、同じプリンターに印刷すると、早い者勝ちであとから印刷したユーザーは先の印刷が終わるまで待つことになるので、空きプリンターがないと「瞬簡PDF4」は「プリンタ-を選択できませんでした。」のメッセージを表示して、一旦PDF作成を中止します。

これを「予めプリンターを複数作成しておく」ことで、「瞬簡PDF4」が自動的に空きプリンターを探して印刷をかけ、同時にPDF作成できるようになります。

同一プリンターへ印刷複数のプリンターへ印刷


このプリンターの追加は、シンクライアントライセンスでご購入されたお客様がダウンロードしてご利用いただける、「プリンターの追加と削除ツール」を使うと、数を指定するだけで 簡単に作成できます。


2) 導入時のポイント~作成するプリンターの数

では、この仮想プリンターはいくつ作成しておけばよいでしょうか?

例えば、100人のユーザーがご利用になる場合でも、同時に100人のユーザーがPDF作成を行うことは一般的には少ないと思います。


仮に、利用頻度によって、PDF作成を同時におこなうのが 最大で10人程度でしたら、10~15個プリンターを作成しておき、PDF作成時に先のメッセージが表示されることが多ければプリンターを増やす、といったように、調整をして頂くとよいと思います。

プリンターを10個 複製した例です。

複数のプリンター


最近の Server 2008 R2 や Windows 7 では、同じ種類のプリンターはまとめて表示されるようで、エクスプローラ上でプリンターのアイコンは一つしか表示されませんが、右クリックメニューの「印刷ジョブの表示」で、プリンターが複数作成されている様子が確認できます。

サーバー管理者の方は、この印刷ジョブを見て頂いて、たとえば作成した10個のプリンターすべてに、常時、印刷ジョブが溜まっているようでしたら、追加を検討していただくと良いと思います。

印刷ジョブ

※なお、仮想プリンターへの印刷をおこなわない機能 (PDFファイルのみの結合、ページ分割/抽出/削除、文書情報設定、セキュリティ設定・解除、透かし、ヘッダフッタ) の同時利用は、必要なプリンターの数には影響ありません。

以上、ターミナルサービスへの導入時のポイントについて、ご紹介しました。 管理者の方など参考にしていただければ幸いです。

※「瞬簡PDF4 シンクライアント対応について」に動作環境/制限事項をまとめておりますので、ご確認ください。

※「瞬簡PDF4」のシンクライアント対応ライセンスをご購入頂いただいたお客様には、シンクライアント環境への導入について説明したドキュメントを添付しております。

About 2011年09月

2011年09月にブログ「I love software!」に投稿されたすべてのエントリーです。過去のものから新しいものへ順番に並んでいます。

前のアーカイブは2011年09月11日 - 2011年09月17日です。

次のアーカイブは2011年09月25日 - 2011年10月01日です。

他にも多くのエントリーがあります。メインページアーカイブページも見てください。

Powered by
Movable Type 3.34