日本語組版の規格として、JIS X4051(日本語組版規則)があります。
ここにある規格書の、X4051 02 のPDFを閲覧すると、97ページあたりから 図・写真等の処理について説明があります。Antenna House Formatter V6 では、このPDFにある、図49、図50の配置を行なう機能を実装しています。
以下がそのサンプルです。解りやすくアンカー位置を赤丸印で示しています。
・アンカー(出現位置)と図が同じページに現れるパターン
・X4051 02 のPDFの図49を再現したパターン
・X4051 02 のPDFの図50を再現したパターン
データの float の指定は3つとも同じですが、その出現位置によってこのように3パターンの配置を実現しています。
どうぞ実際に、Antenna House Formatter V6 を使ってみてください。
評価版のダウンロードは、こちら から。
作成者別アーカイブ: AHEntry
Antenna House Formatter での異体字の使用
本日は、度々お問い合わせのある、Antenna House Formatterでの異体字の使用についてお話しします。
異体字とは
・同じ意味/発音を持っているが、異なる表記の字体の文字
・新字と旧字による違いや、手書きによる個人差から生じたものなどもある
・人名や屋号、地名に多く使われる
JISやUnicode仕様においては、基本的に異体字ごとに異なるコードを割り振るようなことは行っていません。(ただし例外もあります)
Unicodeでは異体字セレクタという名称でタグを付けることにより、先行する一文字と組み合わせて定義付けされた字体を選択する方法をとります。
2006年1月13日に漢字で異体字セレクタを使うための漢字字形データベース(Ideographic Variation Database)への登録手続きが定められ、2007年12月14日に最初の異体字コレクションとしてAdobe-Japan1が登録されました。
Antenna House Formatterはこの異体字に対応しています。
異体字選択機能を持っているCIDフォント(OpenTypeフォント)と組み合わせて使うことで、Antenna House Formatter から、PDFへの異体字出力が可能です。(PDF出力のみ、他の出力オプションは未対応)
Antenna House Formatter での使用方法
Antenna House Formatterで、これらを使うには次のようにします。
例えば、葛飾区と葛城市の「葛」には、二つの字形があります。
どちらの文字も、U+845Bという符号位置に統合されています。
異体字セレクタを使って、次のように区別することができます。
1. U+845B U+E0100
2. U+845B U+E0101
XSL-FOでは、次のように書きます。
<fo:block>葛󠄀</fo:block>
<fo:block>葛󠄁</fo:block>
これを小塚明朝 Pr6N フォントを使用した場合、出力は次のようになります。
皆さんも試してみてください。
Antenna House Formatter V6 のルビ機能
Antenna House Formatter V6 ではルビ機能について拡張し、
使いやすく、正しい表現が可能になりました。
Antenna House Formatter V5 までは、ルビを直接表現できなかったため、fo:inline-container などを利用して模倣せざるを得ませんでした。そのためルビの配置や行分割に対して多くの制約がありました。
Antenna House Formatter V6 で実装されたルビ拡張では、このような制約を取り払い本来のルビを表現できるようになりました。
ルビ機能を使ったサンプルをご覧ください。
ぜひ、これらの機能をお試しください。
Antenna House Formatter V6 の評価版のダウンロードはこちらから。
明日もAntenna House Formatter V6 のお話が続きます。
Antenna House Formatter V6 を米国国税庁が採用!
本日も、9月30日にリリースとなった、世界標準の自動組版ソフト Antenna House Formatter V6 についてです。
以前にもお話しましたが、Antenna House Formatter V6 は、米国の国税庁の新しいPDF配布ページに採用されました。
プロジェクトでは、ページ組版の多くの要求仕様がリストアップされていました。
次のようなものです。
・Open Type Fonts に対応
・マルチバイト言語に対応
・TaggedPDF出力機能
・XSLT, XSL-FOに対応
・Logファイルを生成する
・4つのカラムをサポート
・ヘッダ、フッタ機能
・段組ページの上か下または隅に段を跨るフロート配置
・ページや段の任意の位置へのフロート配置
・フットノート機能
・改定バーの代わりに任意の文字を置く機能
・カラムのバランス機能
・ハイフネーション機能
・インデックス機能
・水平、垂直アライメント機能
・PDFを画像としてPDFに埋め込む
・行折り返し時のインデント位置指定機能を追加
・AcroForm による記入欄のあるPDFを埋め込み
:
などなど。
これらの多くは既に実装済みでしたが、不足している機能もありましたので、それらを実装することで採用となりました。Antenna House Formatter V6 では、これら多くの要求を満たす充実した機能をご利用いただけます。
ぜひ、Antenna House Formatter V6 の評価版をお試しください。ダウンロードはこちらから。
明日も Antenna House Formatter V6についての話です。
世界標準の自動組版ソフト Antenna House Formatter V6 新発売!
かねてよりブログなどで報告させていただいておりました、自動組版ソフトの新版 Antenna House Formatter V6 を 9月30日にリリースいたしました。
今回の新版では、float機能の強化によって、従来は難しかった図版の自由な配置を実現しました。
ページの指定位置に floatを配置したり、段組の中に float を配置したり、段組中を通しで float を配置したりすることができます。
色々な指定をしたfloat機能のサンプルをご覧ください。
・バージョンアップについて
現在 Antenna House Formatter V5 をお使いのユーザー様は、Antenna House Formatter V6 に無償バージョンアップしていただけます。
無償バージョンアップの条件などにつきましては、こちらをご参照ください。
バージョンアップをご希望されるユーザー様は、
弊社保守サービス:hosyu@antenna.co.jp宛に、ユーザIDとシリアル番号を記述し、V6へバージョンアップ希望と書いてメールにてご連絡ください。
なおバージョンアップの場合、ご依頼から発送まで一週間程度のお時間がかかりますので、よろしくお願いいたします。
明日も引き続き、Antenna House Formatter V6についてお話します。
AH FormatterとFormatter Clubをよろしく
こんにちは。XML自動組版ソフト AH Formatter の開発担当です。いつもは「CSS組版ブログ」にいるのですが、今日はアンテナハウスのメインのこのブログに進出です。
このブログでも案内がありましたが、AH Formatter とその関連技術(XSL、CSS、XML 多言語組版など)に関心をもっていただいている皆様と開発者とをつなぐコミュニティとして“Formatter Club”を7月に発足し、先週9月16日に第2回定例会を開催しました。私からは、AH Formatter V6の紹介(この資料もXHTML+CSSでAH Formatterで組版)と、いくつかのサンプル文書をAH Formatterで組版して見せるデモを行いました。
お見せしたデモは次のものです:
-
米国国税庁の案件のためのテストデータ
段組のページに段をまたがる図表の配置が多用されています。たとえば3段組のページの右下に2段抜きで表があるなど。
-
これの第2版が公開準備中で、その書籍版の組版をAH Formatterで行います。データはXHTML+CSSですが、AH Formatter拡張を含むページ組版用のCSSスタイルシートを指定しています。V6でのfloat拡張を利用することにより、図版の配置が最適化され、従来のXML自動組版では図版が多いとページに余分なアキが生じやすかった問題が解消されています。
-
青空文庫のXHTMLを縦書きのCSS指定で縦書きで、文庫本のような体裁になるように柱やノンブルをつけています。図版はV6の拡張floatを利用して、天・小口寄りに自動的に配置しています。AH Formatterが、縦書き青空文庫ビューアーになるというデモです。
このようなデモをするとき、AH FormatterのWindows版GUIアプリケーションは便利です。AH Formatterはサーバー上のシステムに組み込まれて利用されることが多いのですが、このWindows版アプリケーションは、手軽にAH Formatterの組版を試すために使えます。
(AH Formatterはマルチプラットフォームであり、Windows以外に、Mac OS X、Linux、各種Unix系のOS用のものがあります。いまのところWindows版のみGUIアプリケーションを用意しています)
Windows版AH Formatterアプリの動作は、Webブラウザに似ています。HTMLやXMLのURLを指定すると組版がはじまりページが表示されます。ファイルをWindowsエクスプローラからドラッグ&ドロップでAH Formatterに与えることもできます。また、Webブラウザのアドレスバーのアイコンをドラッグ&ドロップしてブラウザで開いているURLをAH Formatterで開くこともできます。
AH Formatterの上級ユーザーにも意外に知られていないのは、文書ファイル(HTMLまたはXML)と、スタイルシート(CSSまたはXSL)を別々にAH Formatterにドラッグ&ドロップすることも出来るということです。文書とスタイルシートを同時にドラッグ&ドロップすると、両方組み合わせて組版されますが、はじめに文書をドラッグ&ドロップ、次にスタイルシートをドラッグ&ドロップ、あるいはその逆の順番で行うこともできます。
青空文庫のXHTMLファイルをAH Formatter V6拡張入りのCSSを指定して組版するデモでは、まず青空文庫のXHTMLだけをAH Formatterにドラッグ&ドロップしました。そうすると、Webブラウザで表示するのと同じように、青空文庫XHTMLにもともと指定されているCSSだけでまず組版された結果が表示されます。そこに、CSSファイル aozora-ah.css をドラッグ&ドロップすると、こんどはそのCSSを使っての組版に変わります。さらに別のスタイルシートをドラッグ&ドロップしてスタイルを切り替えるといったこともできます。
どうでしょう? まだAH Formatterを試していない方も、試してみようという気になりませんか?
AH Formatterは評価版をダウンロードして試してみることが可能です。おすすめなのは、Formatter Clubに入ることです。そうすると、開発中の最新版のAH Formatterをダウンロードしてお試しいただけます。Formatter Clubには、AH Formatterのベテランユーザーや組版のプロたちも集まっていて、MLや定例会でノウハウを交換して知識を広げることができます。
ということでAH Formatterと、Formatter Clubをどうぞよろしく。それから「CSS組版ブログ」のほうもよろしく。
記述形式と配布形式の分離のこと(メモ)
昨日のハーバード大学の電子ジャーナルアーカイブプロジェクトの調査報告 (E-JOURNAL ARCHIVE DTD FEASIBILITY STUDY)を読んでいて意を強くしたこととして、XMLドキュメントの処理において、記述形式と配布形式を分離して考えるのは大きな意味がある。
記述形式は執筆・制作を効率的に行なうことを主な目的とする。そのためには例えば、章番号、節番号、図の番号、ページ番号などを執筆時には書かないでおく。執筆中に章の構成を変更すれば、章・節番号、図の番号などは変更になり、その場合、最初から番号をつけても振りなおしになるからである。
目次、索引、図表の一覧なども同様である。
このような内容は執筆が終わってから作成すればよい。
XMLでドキュメントを作成すれば、番号付けやドキュメントの加工のためのツールを準備するのは簡単である。
一方において、配布形式はそれを表示したときに、コンテキスト(内容)に関わる部分は、表示環境によらずに一定になってほしい。
現在、配布形式としては、PDFとHTMLがその双璧である。今後はEPUBなども用意するケースが増えるであろう。
PDFのようにレイアウトまで固定にする形式を採用する場合は、ページ番号まで固定化するしか、選択肢はない。しかし、HTMLで配布する場合であっても、章番号、節番号、図の番号は付与済みの形式で配布するほうが望ましい。また目次や索引なども同様で、可視化時にスタイルシートで生成するよりも、執筆を完了した時点で作成しておく方が良いのではないか。
コンテンツの制作にあたり、記述形式と配布形式を分離し、記述形式から配布形式には自動変換するという方式は原理的にみて優れていると思う。
CAS-UBによる執筆ではそのような考えを採用している。
●執筆時
例えば他のエントリーの見出しをID参照するときは
[[##e.201108091833.参照先のエントリー]]
このように記述する。e以下は見出しのIDである。これは、
執筆中にプレビューすると次のようになる。
<a href="201108091833.html#e.201108091833.参照先のエントリー">201108091833:参照先のエントリー</a>
最後にPDFに出力したときに、
第1 章 参照先のエントリー(p.1)
となる。
●CAS-UB
http://www.cas-ub.com/
ジャーナルのアーカイブのためのDTDの比較検討
ハーバード大学の電子ジャーナルアーカイブプロジェクトの調査報告 (E-JOURNAL ARCHIVE DTD FEASIBILITY STUDY)を一読した。
・http://www.diglib.org/preserve/hadtdfs.pdf
この調査は、昨日話題としたNLM DTDの開発にあたって、標準的なアーカイブDTDが設計できるかどうかを検討するために行なったもので、Elsevier, Blackwell, BioOne, Nature, HighWireなど10出版社が作っているジャーナルのためのDTDとそのDTDによってマークアップしたジャーナルの記事のサンプルを集めて比較検討したものである。
いささか古いが、実証的な内容であり、XMLのDTDを設計したり運用したりする際には大変参考になる。また、コンテンツとスタイルの分離における生成コンテンツの扱いについても考えさせられる。
重要と感じた点をいくつか紹介する。(なお、レポートの本文中でSGMLと書かれている点を以下ではXMLと言い換えている。)
(1)XMLでは形式よりも意味でコンテンツにマークアップすることで、形式指示と構造情報を分離する。この際、どこまで分離するかで方針が分かれる。具体的には定型語句、カウンター(章番号、節番号、図番号など)、ラベル(箇条書きの記号など)、句読点などの扱いである。もし、これらを形式として内容から分離し、スタイルシートで生成するならば、XMLインスタンスをスタイルシート抜きで配布すると、最終の見栄えが分からなくなる。これに対して、定型語句などをXMLインスタンスに残しておけば、スタイルシートを一緒に配布しなくても良くなる。
(2)10社のDTDの中でWileyのものがもっとも複雑で、基本要素250個、表7個、数式7個(数式はTeXで記述しており、これをラップするXML要素が7個)の合計264要素で、簡単なDTDは100~130個である。実際のサンプル記事での要素の使用率は50%程度以下であった。その要素の1/4から半分が前付けの中で使われている。記事にしめる前付けの分量は少ないが要素の利用は前付けに集中している。
各社のジャーナル記事では次のような項目が様々に表現されており、ジャーナル記事をアーカイブするためのXMLではその内容の保持を検討する必要がある。
(1)定型文と生成テキスト ― 例)図のキャプションにおける番号、引用のテキスト
(2)論文のヘッダと前付け ― 表題、著者(姓と名の分離、順序)、著者の所属とリンク、付随する著者の参照情報、要約、脚注、略称と定義、著作権
(3)その他の前付け ― 記事の履歴(受付日など)、キーワード
(4)メタデータ要素 ― 出版社の名前・住所、ジャーナルのタイトル・略称・ID・ISSN・Coden、出版に関するもの(巻・号・番号・先頭ページ・最終ページ・発行日・価格)、記事の識別のためのメタデータ、記事のメタデータ(タイトル・記事の種類・図の数・表の数・数式の数・参照の数・ページ数・ワード数・言語)、スポンサー、目次情報(見出し・トピック・主題)、DTD情報(DTD名、バージョン)
(5)記事のヘッダー
(6)本文要素 ― 節見出し、リスト、テキストボックス、図、図の著作権、整形済みテキスト、Q&A
(7)オブジェクト配置 ― 固定またはフロート
(8)後付け ― 謝辞、付録、参考、用語、査読者の注、履歴
(9)参考文献
(10)表
(11)数式
この調査はNLM DTDを設計する前、すなわち様々なジャーナル出版社がばらばらにジャーナル用DTDを設計して利用していた時期のものであり、NLMができた現在では、統一化が進んでいるのだろう。
最後のほうに、Wileyが、ジャーナルの記事をSGML化するにあたって、データの妥当性をどのように確保するかについていろいろと行なった対策が紹介されている。マークアップの基準をつくるだけでなく、日々のデータ作成においてその基準に準拠させるために苦労していたようだ。
NLM DTD, JATS, XSL-FO Stylesheetsについてのメモ
欧米における学術情報誌(ジャーナル:Journal)の分野では、NML DTDと呼ばれる文書形式の採用が広がっているようだ。
NLM DTDの歴史に関しては、2011年3月の東京 J-STAGE3 説明会におけるBruce D. Rosenblum 氏の講演要旨を読むとよく分かる。
http://info.jstage.jst.go.jp/society/meeting/110309/meeting_110309_6.pdf
NLM DTDの開発はずっと米国医学図書館(National Library of Medicine) で行なわれてきたが、近年、プロジェクトが米国情報標準化機構(NISO)に移ることになったようだ。
これに際して、NLMの最終版としてV3.0が2008年にリリースされた。当初はV3.0をNISOに移管する予定だったが多くのコメントが寄せられたので、整理してV3.1を開発したうえで、NISOに移すことになった。
NLM DTD V3.1は、JATS(Journal Article Tag Suite)という名前に変更して、2011年3月に「試行用ドラフト標準」としてリリースされた。
6ヶ月のレビュー期間後、寄せられたコメントに対処する。その後NISOで投票を行い、JATS1.0 となる予定とのことである。
http://jats.nlm.nih.gov/about.html
NML DTDで作成されたジャーナルをAntenna House Formatterを使って自動組版して印刷している団体はNLMのほかに米国の大学、出版社に沢山あるとのことだ。
このためのXSL-FOスタイルシートの初歩的なものが、NLMのWebページで公開されておりだれでも入手できる。
・http://dtd.nlm.nih.gov/tools/tools.html
・ftp://ftp.ncbi.nih.gov/pub/archive_dtd/tools/
FTPサイトにあるJournalPublishing-XSL-FO.zipがそれである。
このスタイルシートは、Antenna House のXSL Formatter V2.5.2003.613をベースとして開発されており、MathMLを組版する機能を使っている。MathML以外は、アンテナハウス拡張を使っていないので、他のXSL-FOプロセサでも使えるとある。
このスタイルシートをベースとしてNML DTDの様々な機能をもっと活用したスタイルシートを作ることができるし、これによってカスタマイズ市場も生まれるのだろう。
公開されているドキュメントは、2006年にFormatter V3.3で組版されている。
随分古い・・・ 2006年という日付に化石を感じてしまう。
アンテナハウスFormatter V6のリリースにより、組版機能は大幅に強化される。
ちょうど、NMLもJATSとして一新される。この機会に、AH Formatterの新しい組版機能を利用して、ジャーナル組版分野における市場開拓を進めたいところだ。
カナダのニューブランズウィック州、新しい規制サイトのPDF配布にAH Formatter V5.3を採用
カナダのニューブランズウィック州は、このほど新しい法律と規制(Acts and regulations)のWebサイトを公開しました。
http://laws.gnb.ca/
このWebサイトには、法律・規制が表題のアルファベット順に並んでおり、各法律はPDFとHTMLで公開されています。
PDFをクリックしますと法令のPDFが表示されます。各法令は、目次から始まって、各条例がすべて、英語とフランス語が左右に併記される形となっています。
PDFのプロパティを見ます。図のように「AH Formatter V5.3」を使っていることが分かります。
カナダは、SGMLの頃からマークアップ言語の利用が盛んで、カナダの政府・州レベルの様々な機関でXMLを利用したシステムが沢山あります。この利用例に限らず、AH Formatterのユーザも多くなっています。