本日は、度々お問い合わせのある、Antenna House Formatterでの異体字の使用についてお話しします。
異体字とは
・同じ意味/発音を持っているが、異なる表記の字体の文字
・新字と旧字による違いや、手書きによる個人差から生じたものなどもある
・人名や屋号、地名に多く使われる
JISやUnicode仕様においては、基本的に異体字ごとに異なるコードを割り振るようなことは行っていません。(ただし例外もあります)
Unicodeでは異体字セレクタという名称でタグを付けることにより、先行する一文字と組み合わせて定義付けされた字体を選択する方法をとります。
2006年1月13日に漢字で異体字セレクタを使うための漢字字形データベース(Ideographic Variation Database)への登録手続きが定められ、2007年12月14日に最初の異体字コレクションとしてAdobe-Japan1が登録されました。
Antenna House Formatterはこの異体字に対応しています。
異体字選択機能を持っているCIDフォント(OpenTypeフォント)と組み合わせて使うことで、Antenna House Formatter から、PDFへの異体字出力が可能です。(PDF出力のみ、他の出力オプションは未対応)
Antenna House Formatter での使用方法
Antenna House Formatterで、これらを使うには次のようにします。
例えば、葛飾区と葛城市の「葛」には、二つの字形があります。
どちらの文字も、U+845Bという符号位置に統合されています。
異体字セレクタを使って、次のように区別することができます。
1. U+845B U+E0100
2. U+845B U+E0101
XSL-FOでは、次のように書きます。
<fo:block>葛󠄀</fo:block>
<fo:block>葛󠄁</fo:block>
これを小塚明朝 Pr6N フォントを使用した場合、出力は次のようになります。
皆さんも試してみてください。
カテゴリー別アーカイブ: コラム
Antenna House Formatter V6 のルビ機能
Antenna House Formatter V6 ではルビ機能について拡張し、
使いやすく、正しい表現が可能になりました。
Antenna House Formatter V5 までは、ルビを直接表現できなかったため、fo:inline-container などを利用して模倣せざるを得ませんでした。そのためルビの配置や行分割に対して多くの制約がありました。
Antenna House Formatter V6 で実装されたルビ拡張では、このような制約を取り払い本来のルビを表現できるようになりました。
ルビ機能を使ったサンプルをご覧ください。
ぜひ、これらの機能をお試しください。
Antenna House Formatter V6 の評価版のダウンロードはこちらから。
明日もAntenna House Formatter V6 のお話が続きます。
Antenna House Formatter V6 を米国国税庁が採用!
本日も、9月30日にリリースとなった、世界標準の自動組版ソフト Antenna House Formatter V6 についてです。
以前にもお話しましたが、Antenna House Formatter V6 は、米国の国税庁の新しいPDF配布ページに採用されました。
プロジェクトでは、ページ組版の多くの要求仕様がリストアップされていました。
次のようなものです。
・Open Type Fonts に対応
・マルチバイト言語に対応
・TaggedPDF出力機能
・XSLT, XSL-FOに対応
・Logファイルを生成する
・4つのカラムをサポート
・ヘッダ、フッタ機能
・段組ページの上か下または隅に段を跨るフロート配置
・ページや段の任意の位置へのフロート配置
・フットノート機能
・改定バーの代わりに任意の文字を置く機能
・カラムのバランス機能
・ハイフネーション機能
・インデックス機能
・水平、垂直アライメント機能
・PDFを画像としてPDFに埋め込む
・行折り返し時のインデント位置指定機能を追加
・AcroForm による記入欄のあるPDFを埋め込み
:
などなど。
これらの多くは既に実装済みでしたが、不足している機能もありましたので、それらを実装することで採用となりました。Antenna House Formatter V6 では、これら多くの要求を満たす充実した機能をご利用いただけます。
ぜひ、Antenna House Formatter V6 の評価版をお試しください。ダウンロードはこちらから。
明日も Antenna House Formatter V6についての話です。
世界標準の自動組版ソフト Antenna House Formatter V6 新発売!
かねてよりブログなどで報告させていただいておりました、自動組版ソフトの新版 Antenna House Formatter V6 を 9月30日にリリースいたしました。
今回の新版では、float機能の強化によって、従来は難しかった図版の自由な配置を実現しました。
ページの指定位置に floatを配置したり、段組の中に float を配置したり、段組中を通しで float を配置したりすることができます。
色々な指定をしたfloat機能のサンプルをご覧ください。
・バージョンアップについて
現在 Antenna House Formatter V5 をお使いのユーザー様は、Antenna House Formatter V6 に無償バージョンアップしていただけます。
無償バージョンアップの条件などにつきましては、こちらをご参照ください。
バージョンアップをご希望されるユーザー様は、
弊社保守サービス:hosyu@antenna.co.jp宛に、ユーザIDとシリアル番号を記述し、V6へバージョンアップ希望と書いてメールにてご連絡ください。
なおバージョンアップの場合、ご依頼から発送まで一週間程度のお時間がかかりますので、よろしくお願いいたします。
明日も引き続き、Antenna House Formatter V6についてお話します。
AH FormatterとFormatter Clubをよろしく
こんにちは。XML自動組版ソフト AH Formatter の開発担当です。いつもは「CSS組版ブログ」にいるのですが、今日はアンテナハウスのメインのこのブログに進出です。
このブログでも案内がありましたが、AH Formatter とその関連技術(XSL、CSS、XML 多言語組版など)に関心をもっていただいている皆様と開発者とをつなぐコミュニティとして“Formatter Club”を7月に発足し、先週9月16日に第2回定例会を開催しました。私からは、AH Formatter V6の紹介(この資料もXHTML+CSSでAH Formatterで組版)と、いくつかのサンプル文書をAH Formatterで組版して見せるデモを行いました。
お見せしたデモは次のものです:
-
米国国税庁の案件のためのテストデータ
段組のページに段をまたがる図表の配置が多用されています。たとえば3段組のページの右下に2段抜きで表があるなど。
-
これの第2版が公開準備中で、その書籍版の組版をAH Formatterで行います。データはXHTML+CSSですが、AH Formatter拡張を含むページ組版用のCSSスタイルシートを指定しています。V6でのfloat拡張を利用することにより、図版の配置が最適化され、従来のXML自動組版では図版が多いとページに余分なアキが生じやすかった問題が解消されています。
-
青空文庫のXHTMLを縦書きのCSS指定で縦書きで、文庫本のような体裁になるように柱やノンブルをつけています。図版はV6の拡張floatを利用して、天・小口寄りに自動的に配置しています。AH Formatterが、縦書き青空文庫ビューアーになるというデモです。
このようなデモをするとき、AH FormatterのWindows版GUIアプリケーションは便利です。AH Formatterはサーバー上のシステムに組み込まれて利用されることが多いのですが、このWindows版アプリケーションは、手軽にAH Formatterの組版を試すために使えます。
(AH Formatterはマルチプラットフォームであり、Windows以外に、Mac OS X、Linux、各種Unix系のOS用のものがあります。いまのところWindows版のみGUIアプリケーションを用意しています)
Windows版AH Formatterアプリの動作は、Webブラウザに似ています。HTMLやXMLのURLを指定すると組版がはじまりページが表示されます。ファイルをWindowsエクスプローラからドラッグ&ドロップでAH Formatterに与えることもできます。また、Webブラウザのアドレスバーのアイコンをドラッグ&ドロップしてブラウザで開いているURLをAH Formatterで開くこともできます。
AH Formatterの上級ユーザーにも意外に知られていないのは、文書ファイル(HTMLまたはXML)と、スタイルシート(CSSまたはXSL)を別々にAH Formatterにドラッグ&ドロップすることも出来るということです。文書とスタイルシートを同時にドラッグ&ドロップすると、両方組み合わせて組版されますが、はじめに文書をドラッグ&ドロップ、次にスタイルシートをドラッグ&ドロップ、あるいはその逆の順番で行うこともできます。
青空文庫のXHTMLファイルをAH Formatter V6拡張入りのCSSを指定して組版するデモでは、まず青空文庫のXHTMLだけをAH Formatterにドラッグ&ドロップしました。そうすると、Webブラウザで表示するのと同じように、青空文庫XHTMLにもともと指定されているCSSだけでまず組版された結果が表示されます。そこに、CSSファイル aozora-ah.css をドラッグ&ドロップすると、こんどはそのCSSを使っての組版に変わります。さらに別のスタイルシートをドラッグ&ドロップしてスタイルを切り替えるといったこともできます。
どうでしょう? まだAH Formatterを試していない方も、試してみようという気になりませんか?
AH Formatterは評価版をダウンロードして試してみることが可能です。おすすめなのは、Formatter Clubに入ることです。そうすると、開発中の最新版のAH Formatterをダウンロードしてお試しいただけます。Formatter Clubには、AH Formatterのベテランユーザーや組版のプロたちも集まっていて、MLや定例会でノウハウを交換して知識を広げることができます。
ということでAH Formatterと、Formatter Clubをどうぞよろしく。それから「CSS組版ブログ」のほうもよろしく。
紅櫻楓軟件有限公司在北京!
こんにちは。
先日 米国の Antenna House,Inc.をご紹介いたしましたが、本日は中国の当社子会社「北京紅櫻楓軟件有限公司(HYFsoft)」を紹介させていただきます。
1997年2月設立で、設立時に取得した15年間の営業許可の延長手続きが先日完了したところです。現在の事務所は北京市中心から北東方向、空港から市内に向かって、四環路のちょっと外側、という場所にあります。
設立当初の業務は、アンテナハウス(中国のWeb上では、安特納軟件公司などと表記されています)が開発・販売するソフトウェアのパーツにあたる部分の受託開発が100%でした。「Antenna House Formatter」も誕生前で、当時のアンテナハウスの主力製品はワープロ文書の変換の「リッチテキストコンバータ」でした。これに組み込まれる変換プログラムの開発がメインでした。
それから15年、オリンピックの開催などもあり、事務所からの風景も変わりました。当時は市内を走る車も黒塗りのセダンばかりだったように記憶していますが、今は、かなりカラフルになってきています。
当初より、日本人のスタッフは置かず、中国の人だけで今日まで運営してもらっています。現在の社員は30人強、アンテナハウスからの受託の中心はワープロの変換エンジンからPDF製品関係に変わりました。名称にPDFと付く当社製品の各種製品のいろいろな部分で使用されています。
中国の会社といいますと人の入れ替わりが激しいのが常のようですが、ここでも同じです。そのような中でも、中国国内ユーザ向けの受託開発がアンテナハウスからの受託を上回るようになってきました。また、開発業務のほかに、アンテナハウス製品の中国国内販売も担当しています(こちらの成績については、社長から発破をかけられることも多いですが。中国でのソフトウェア販売はなかなか難しいようです)。
現在の中国国内ユーザ向けの開発は、PDFを中心とした、各種形式のファイルの表示や変換といったところで、表示プログラムは、大手メーカにも採用してもらい、各社の電子ブックリーダ、携帯電話に組み込まれています(日本のアンテナハウスより先にAndroid に対応していたりします)。
PDFのサードパーティ各社の事務所も北京にあり、競争も激しくなってきています。その中でより良い製品を開発して行きたいものです。
記述形式と配布形式の分離のこと(メモ)
昨日のハーバード大学の電子ジャーナルアーカイブプロジェクトの調査報告 (E-JOURNAL ARCHIVE DTD FEASIBILITY STUDY)を読んでいて意を強くしたこととして、XMLドキュメントの処理において、記述形式と配布形式を分離して考えるのは大きな意味がある。
記述形式は執筆・制作を効率的に行なうことを主な目的とする。そのためには例えば、章番号、節番号、図の番号、ページ番号などを執筆時には書かないでおく。執筆中に章の構成を変更すれば、章・節番号、図の番号などは変更になり、その場合、最初から番号をつけても振りなおしになるからである。
目次、索引、図表の一覧なども同様である。
このような内容は執筆が終わってから作成すればよい。
XMLでドキュメントを作成すれば、番号付けやドキュメントの加工のためのツールを準備するのは簡単である。
一方において、配布形式はそれを表示したときに、コンテキスト(内容)に関わる部分は、表示環境によらずに一定になってほしい。
現在、配布形式としては、PDFとHTMLがその双璧である。今後はEPUBなども用意するケースが増えるであろう。
PDFのようにレイアウトまで固定にする形式を採用する場合は、ページ番号まで固定化するしか、選択肢はない。しかし、HTMLで配布する場合であっても、章番号、節番号、図の番号は付与済みの形式で配布するほうが望ましい。また目次や索引なども同様で、可視化時にスタイルシートで生成するよりも、執筆を完了した時点で作成しておく方が良いのではないか。
コンテンツの制作にあたり、記述形式と配布形式を分離し、記述形式から配布形式には自動変換するという方式は原理的にみて優れていると思う。
CAS-UBによる執筆ではそのような考えを採用している。
●執筆時
例えば他のエントリーの見出しをID参照するときは
[[##e.201108091833.参照先のエントリー]]
このように記述する。e以下は見出しのIDである。これは、
執筆中にプレビューすると次のようになる。
<a href="201108091833.html#e.201108091833.参照先のエントリー">201108091833:参照先のエントリー</a>
最後にPDFに出力したときに、
第1 章 参照先のエントリー(p.1)
となる。
●CAS-UB
http://www.cas-ub.com/
ジャーナルのアーカイブのためのDTDの比較検討
ハーバード大学の電子ジャーナルアーカイブプロジェクトの調査報告 (E-JOURNAL ARCHIVE DTD FEASIBILITY STUDY)を一読した。
・http://www.diglib.org/preserve/hadtdfs.pdf
この調査は、昨日話題としたNLM DTDの開発にあたって、標準的なアーカイブDTDが設計できるかどうかを検討するために行なったもので、Elsevier, Blackwell, BioOne, Nature, HighWireなど10出版社が作っているジャーナルのためのDTDとそのDTDによってマークアップしたジャーナルの記事のサンプルを集めて比較検討したものである。
いささか古いが、実証的な内容であり、XMLのDTDを設計したり運用したりする際には大変参考になる。また、コンテンツとスタイルの分離における生成コンテンツの扱いについても考えさせられる。
重要と感じた点をいくつか紹介する。(なお、レポートの本文中でSGMLと書かれている点を以下ではXMLと言い換えている。)
(1)XMLでは形式よりも意味でコンテンツにマークアップすることで、形式指示と構造情報を分離する。この際、どこまで分離するかで方針が分かれる。具体的には定型語句、カウンター(章番号、節番号、図番号など)、ラベル(箇条書きの記号など)、句読点などの扱いである。もし、これらを形式として内容から分離し、スタイルシートで生成するならば、XMLインスタンスをスタイルシート抜きで配布すると、最終の見栄えが分からなくなる。これに対して、定型語句などをXMLインスタンスに残しておけば、スタイルシートを一緒に配布しなくても良くなる。
(2)10社のDTDの中でWileyのものがもっとも複雑で、基本要素250個、表7個、数式7個(数式はTeXで記述しており、これをラップするXML要素が7個)の合計264要素で、簡単なDTDは100~130個である。実際のサンプル記事での要素の使用率は50%程度以下であった。その要素の1/4から半分が前付けの中で使われている。記事にしめる前付けの分量は少ないが要素の利用は前付けに集中している。
各社のジャーナル記事では次のような項目が様々に表現されており、ジャーナル記事をアーカイブするためのXMLではその内容の保持を検討する必要がある。
(1)定型文と生成テキスト ― 例)図のキャプションにおける番号、引用のテキスト
(2)論文のヘッダと前付け ― 表題、著者(姓と名の分離、順序)、著者の所属とリンク、付随する著者の参照情報、要約、脚注、略称と定義、著作権
(3)その他の前付け ― 記事の履歴(受付日など)、キーワード
(4)メタデータ要素 ― 出版社の名前・住所、ジャーナルのタイトル・略称・ID・ISSN・Coden、出版に関するもの(巻・号・番号・先頭ページ・最終ページ・発行日・価格)、記事の識別のためのメタデータ、記事のメタデータ(タイトル・記事の種類・図の数・表の数・数式の数・参照の数・ページ数・ワード数・言語)、スポンサー、目次情報(見出し・トピック・主題)、DTD情報(DTD名、バージョン)
(5)記事のヘッダー
(6)本文要素 ― 節見出し、リスト、テキストボックス、図、図の著作権、整形済みテキスト、Q&A
(7)オブジェクト配置 ― 固定またはフロート
(8)後付け ― 謝辞、付録、参考、用語、査読者の注、履歴
(9)参考文献
(10)表
(11)数式
この調査はNLM DTDを設計する前、すなわち様々なジャーナル出版社がばらばらにジャーナル用DTDを設計して利用していた時期のものであり、NLMができた現在では、統一化が進んでいるのだろう。
最後のほうに、Wileyが、ジャーナルの記事をSGML化するにあたって、データの妥当性をどのように確保するかについていろいろと行なった対策が紹介されている。マークアップの基準をつくるだけでなく、日々のデータ作成においてその基準に準拠させるために苦労していたようだ。
NLM DTD, JATS, XSL-FO Stylesheetsについてのメモ
欧米における学術情報誌(ジャーナル:Journal)の分野では、NML DTDと呼ばれる文書形式の採用が広がっているようだ。
NLM DTDの歴史に関しては、2011年3月の東京 J-STAGE3 説明会におけるBruce D. Rosenblum 氏の講演要旨を読むとよく分かる。
http://info.jstage.jst.go.jp/society/meeting/110309/meeting_110309_6.pdf
NLM DTDの開発はずっと米国医学図書館(National Library of Medicine) で行なわれてきたが、近年、プロジェクトが米国情報標準化機構(NISO)に移ることになったようだ。
これに際して、NLMの最終版としてV3.0が2008年にリリースされた。当初はV3.0をNISOに移管する予定だったが多くのコメントが寄せられたので、整理してV3.1を開発したうえで、NISOに移すことになった。
NLM DTD V3.1は、JATS(Journal Article Tag Suite)という名前に変更して、2011年3月に「試行用ドラフト標準」としてリリースされた。
6ヶ月のレビュー期間後、寄せられたコメントに対処する。その後NISOで投票を行い、JATS1.0 となる予定とのことである。
http://jats.nlm.nih.gov/about.html
NML DTDで作成されたジャーナルをAntenna House Formatterを使って自動組版して印刷している団体はNLMのほかに米国の大学、出版社に沢山あるとのことだ。
このためのXSL-FOスタイルシートの初歩的なものが、NLMのWebページで公開されておりだれでも入手できる。
・http://dtd.nlm.nih.gov/tools/tools.html
・ftp://ftp.ncbi.nih.gov/pub/archive_dtd/tools/
FTPサイトにあるJournalPublishing-XSL-FO.zipがそれである。
このスタイルシートは、Antenna House のXSL Formatter V2.5.2003.613をベースとして開発されており、MathMLを組版する機能を使っている。MathML以外は、アンテナハウス拡張を使っていないので、他のXSL-FOプロセサでも使えるとある。
このスタイルシートをベースとしてNML DTDの様々な機能をもっと活用したスタイルシートを作ることができるし、これによってカスタマイズ市場も生まれるのだろう。
公開されているドキュメントは、2006年にFormatter V3.3で組版されている。
随分古い・・・ 2006年という日付に化石を感じてしまう。
アンテナハウスFormatter V6のリリースにより、組版機能は大幅に強化される。
ちょうど、NMLもJATSとして一新される。この機会に、AH Formatterの新しい組版機能を利用して、ジャーナル組版分野における市場開拓を進めたいところだ。
自動組版ソフト「AH Formatter」とDITA (その3)
こんばんは。
昨日、XMetaL Authorには Open Toolkit が標準バンドルされていることをお話ししましたが、アンテナハウスは、DITA Open ToolKitのカスタマイズサービスも提供しています。
DITA文書のPDF出力のためのスタイルシート制作、HTML、その他出力のためのスタイルシート制作、多言語索引作成のためのスタイルシート制作等、多数の実績を持っております。また次のようなツールやサービスも提供中です。どうぞアンテナハウスの各種DITAサービスを存分にご利用ください。
AH Formatter用Open Toolkitプラグイン
DITA-OTの標準のビルドファイルでは Antenna House Formatter (XSL Formatter) がサポートされており、Formatterを起動してPDFを得ることができます。AH Formatter用Open Toolkitプラグインをどうぞお試しください。
OpenToolkit 1.5用多言語索引モジュール
DITAとDocBookで作成したドキュメント用の多言語索引制作モジュールです。主に欧米で広く使われている人気のライブラリです。Catalan、Czech、Danish、 German、 English、 Spanish、Finnish、 French、Hungarian、Italian、 Dutch、Norwegian、Polish、Portuguese、Russian、Swedish、Turkish、Simplified Chinese、Traditional Chinese、Japanese、Korean 21言語をサポートしています。
Word2DITA
DITA仕様に準拠したXMLインスタンス(トピック)を簡単に、間違いなく入力/編集するためのエディタがWord2DITAです。MSWordのアドオンソフトとして動作します。
●アンテナハウス海外サイト
http://www.antennahouse.com
http://rainbowpdf.com
来週は、中国のアンテナハウスです。