カテゴリー別アーカイブ: AH Formatter

インド系文字の組版

AH Formatter では、現在インド系の文字として、ヒンディ語などを表現するためのデヴァナガリ文字(Devanagari)をサポートしています。しかし、インド国内では、数多くの言語が話されているので、Devanagari だけでは足りません。
インド政府が定めている公用語はヒンディ語で、英語が準公用語となっています。また、各地方には指定言語が定められており、それらはその地方での公用語となっています。詳しくは Wikipedia などを参照してください。

インド近辺において、各公用語(指定言語)の実際の話者の概数は以下のとおりです。(Wikipediaなどより)

言語 スクリプト 母語話者数
ヒンディ語 Devanagari 4億9000万人
マラティ語 Devanagari 6800万人
マイティリ語 Devanagari 2400万人
シンド語 Devanagari 2136万人
ネパール語 Devanagari 1600万人
コンカニ語 Devanagari 750万人
ドグリ語 Devanagari 200万人
ボド語 Devanagari 154万人
サンスクリット語 Devanagari 1万人
ベンガル語 Bengali 2億2000万人
アッサム語 Bengali 2000万人
マニプリ語 Bengali 250万人
タミル語 Tamil 7400万人
テルグ語 Telugu 7000万人
パンジャブ語 Gurmukhi 6100万人
グジャラト語 Gujarati 4600万人
マラヤラム語 Malayalam 3600万人
カンナダ語 Kannada 3500万人
オリヤ語 Oriya 3200万人
サンタル語 Ol Chiki 605万人
ウルドゥ語 Arabic 6100万人
カシミル語 Arabic 460万人

AH Formatter は、言語をサポートするというより、スクリプトをサポートします。Devanagari と Arabic はサポート済みですので、あと 9スクリプトサポートすればよさそうです。

インドで発行されている紙幣はヒンディ語と英語で書かれていますが、裏面には、15の言語で金額が表記されています。これらは、次の言語、スクリプトで、公用語(指定言語)に含まれるスクリプトのうち、Ol Chiki 以外がすべて含まれています。

紙幣 アッサム語 Bengali
ベンガル語 Bengali
グジャラト語 Gujarati
カンナダ語 Kannada
カシミル語 Arabic
コンカニ語 Devanagari
マラヤラム語 Malayalam
マラティ語 Devanagari
ネパール語 Devanagari
オリヤ語 Oriya
パンジャブ語 Gurmukhi
サンスクリット語 Devanagari
タミル語 Tamil
テルグ語 Telugu
ウルドゥ語 Arabic

さて、デヴァナガリ文字(Devanagari)の構造を少しだけ紹介しましょう。
Devanagari は、母音と子音を組み合わせて表現します。そして、上部の横棒(シローレーカと呼ばれます)で文字が繋がっているのが特徴です。
ひとつの子音字は、「ka」のように a音を含んでいるので、ア行の文字は単独で表現します。「ki」や「ku」などは「ka」と母音を組み合わせて表現します。

「ka」は、 です。
「kaa」はこれに母音「aa」 を組み合わせて、का となります。日本語のア行はこれに近いそうです。
「ki」は母音「i」ि を組み合わせて、कि となります。おもしろいことに、「i」音は、子音の後ではなくて前に付くのです。「ku」は母音「u」 を組み合わせて、कु となります。これは、子音の下に付きます。
「ka」でなくて、「k」と発音させたいときがあります。これは、子音から「a」を取り除く文字 を付加します。

だいたいこんな程度の知識で、日本語を Devanagari で表現してみることができます。(町田和彦:書いて覚えるヒンディー語の文字 より)

鹿児島
ka g oo sh i m aa
ि
कगोशिमा
東京
t oo k y oo
तोक्यो
学校
ga k k oo
गक्को

来月 10/22 に Formatterのユーザー会「FormatterClub」が催されます。そこで、インド系文字組版に関する発表も行なわれる予定です。参加費無料ですので、ご興味のある方はお申し込みください。

FormatterClub定例会「文字組版の最先端」
今回のFormatterClub定例会では、縦組など文字の方向指定など、綺麗に文字組版するためのマークアップ方法のほか、V6.1(出荷準備中)の新要素、インドの文字組版、MathMLを使った高品質数式組版のご紹介、さらには現在開発中のAHReaderを使って電子文書レイアウトの可能性についてご説明いたします。

引用符について

AH Formatter での引用符の扱いについて、簡単に紹介します。

引用符とは、U+0022 ” や、U+201C “ U+201D ” などの文字です。
Unicode では文字をクラス分けしていて、引用符は QU というクラスに分類されています。
引用符は、”Hello” のように対で使われるため、開きと閉じが存在します。U+0022 は、開きと閉じで同じ文字が使われるので、その区別がありませんが、“Hello” のように、U+201C と U+201D を使った場合は、明らかに U+201C が開きで U+201D が閉じです。

Unicode では、行分割の規則も定めていて、QU の前後では分割不可などとなっています。しかし、開きと閉じがわかっている場合に、この規則を適用してしまうのはうまくありません。Unicode では、「言語の情報があれば、QU の引用符が開きか閉じか判定して、OP または CL として扱うとよい」と言っています。OP は開き括弧で、CL は閉じ括弧です。

これはどういうことでしょう。なぜ U+201C を始めから OP に分類しないのでしょう。
答えは、U+201C は言語によって閉じ側になり得るからです。
U+201C や U+201D などのように、向きのある引用符は、主にヨーロッパの言語によって扱いを変える必要があるのです。
EU は、公文書規則を公開していて、そこの各国語の 6.4. Word-processor punctuation marks and spacing(英語の場合)に引用符等の規則がまとめられています。
Wikipedia にも引用符に関する項目があります。
日本語
英語

これらを、二重引用符とギュメ(U+00AA、U+00BB)についてざっと整理すると、次のようになります。

言語 EU Wikipedia
af Afrikaans     „  ”  
be Belarusian     „  “ «  »
bg Bulgarian „  “   „  “  
cs Czech „  “   „  “ »  «
da Danish   »  « „  “ »  «
de German „  “   „  “ »  «
el Greek “  ” «  » “  „ «  »
en English “  ”   “  ”  
es Spanish “  ” «  » “  ” «  »
et Estonian „  ”   „  “ «  »
fi Finnish ”  ”   ”  ” »  »
fr French “  ” «  » “  ” «  »
ga Irish “  ”   “  ”  
hr Croatian       »  «
hu Hungarian „  ” »  « „  ” »  «
is Icelandic     „  “  
it Italian “  ” «  » “  ” «  »
lt Lithuanian „  “   „  “ «  »
lv Latvian “  ”   „  “ «  »
mt Maltese “  ”      
nl Dutch „  ”   „  ”  
no Norwegian     “  ” «  »
pl Polish „  ” »  « „  ” «  »
or
»  «
pt Portugese “  ” «  » “  ” «  »
ro Romanian „  ”
or
“  ”
«  » „  “ «  »
ru Russian     „  “ «  »
sk Slovak „  “   „  “ »  «
sl Slovenian „  “   „  “ »  «
sq Albanian     “  „ «  »
sr Serbian     „  “ »  «
sv Swedish ”  ”   ”  ” »  »
tr Turkish     “  „ «  »
uk Ukrainian     „  “ «  »

AH Formatter は、向きのある引用符については言語情報から適切な向きを判断し、括弧類と同じに扱って組版を行ないます。

U+0022 のように、向きのない引用符に対して、AH Formatter は次のようにしてなるべく開きと閉じの区別を付けて組版を行ないます。

  • 文字列頭の向きのない引用符は、OP とみなす。
  • 文字列末の向きのない引用符は、CL とみなす。
  • 文字列中の向きのない引用符は、直後が空白でなく直前が空白なら OP とみなす。
  • 文字列中の向きのない引用符は、直前が空白でなく直後が空白なら CL とみなす。

AH Formatter 導入事例紹介のセミナー資料(PDF)を公開しました。

先週、7月27日(金)に開催いたしました「第2回 AH Formatter 事例紹介セミナー」で使用した資料(PDF)を本日公開いたしました。以下よりダウンロードいただけますので、『AH Formatter』にご興味のある方、導入をご検討されていらっしゃる方には特にご覧いただきたく存じます。

なお、『AH Formatter』の導入事例の紹介は、以下の Webページに豊富にご用意しております。ご参考にしていただければ幸いです。
『AH Formatter』の導入事例紹介


[書籍紹介] W3C技術ノート 日本語組版処理の要件

本ブログの記事「日本語組版処理の要件(2012年3月30日)」で紹介しました「W3C技術ノート 日本語組版処理の要件」が東京電機大学出版局から発売されています(2012年4月10日発売)。
W3C技術ノート 日本語組版処理の要件
W3C技術ノート 日本語組版処理の要件(Amazon.co.jp)
この書籍は、そのほとんどすべてが弊社『AH Formatter V6』によって組版されています。機会がありましたら『AH Formatter』でどのような組版ができるのか是非お手にとってご覧ください。
なお、本件の導入事例は、『AH Formatter』の「導入事例紹介ページ」に掲載しています。
AH Formatter V6 による JLReq の自動組版(AH Formatter 導入事例紹介)


AH Formatter V6.0 改訂3版につきまして

2012年7月4日、AH Formatter V6.0 改訂3版を公開しました。
主な機能強化は以下のとおりです。
・PDF フォームのテキストフィールドに書式設定ができるようになりました。
・また、書式を設定したテキストフィールドに初期値の設定ができるようになりました。
この他、これまでの障害に対応しております。改訂内容の詳細は次をご参照ください。
AH Formatter V6.0 改訂情報
評価版は以下のページよりお申し込みいただけます。
AH Formatter V6 評価版のお申し込み
製品のご購入につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
アンテナハウス システム製品技術相談会


AH Formatter 事例紹介セミナーのご案内 – 2012/7/27(金)

このたびアンテナハウスは、『AH Formatter(XSL Formatter)』がどのような分野でどのようにご利用されているか、実際にご利用いただいているお客様からご紹介いただく「第2回 AH Formatter 事例紹介セミナー」を 2012年7月27日(金)に開催いたします(事前予約制)。『AH Formatter』にご興味のある方、導入をご検討されていらっしゃる方は、是非、ご参加ください。
セミナーの詳細及びお申し込みは、
「第2回 AH Formatter 事例紹介セミナー」のご案内
をご覧ください。

続きを読む


EPUB3.0とAH Formatter(後編)

今回は、既存のEPUBファイルの内容に、組版体裁を自由にカスタマイズしたCSS(AH FormatterのCSS3拡張機能も利用できる)とをあわせてAH Formatterで組版してPDFを作成する方法を説明します。
題材とするEPUBファイルは、前回に引き続き、IDPFでEPUB3サンプルとして公開されている『草枕』のEPUBファイルを使います。まず、このEPUBの中身をZIP解凍してXHTMLファイルとCSSファイルを見つけます。

カスタマイズCSSの指定

草枕EPUBの中には、縦書き用のスタイルシート vertical.css が入っています。この内容のルート(html)要素のスタイル指定は次のようになっています:

html
{
-epub-writing-mode: vertical-rl;
font-family: 'foobar', "HiraMinProN-W3", "@MS 明朝", serif, sans-serif;
font-size: 14pt;
margin: auto 1em;
padding: 1em 0;
max-height: 28em;
background-color: #fff4e7;
}

AH Formatterでは、CSS3 Paged Mediaを拡張したページの指定により基本版面の設定ができるので、ルート要素にあるmarginやpaddingの指定、1行の文字数を制限するためのmax-heightの指定は、不要です。本文のfont-sizeも変更したいです。それから、柱とノンブルをつけたいです。
ここでは、このCSSには直接手を加えないで、別のカスタマイズ用のCSSファイル ahcustom.css を作ってみました。これをAH Formatterに文書XHTMLファイルと一緒に指定すると、ahcustom.cssがユーザースタイルシートとして、文書に指定されているCSS(「著者スタイルシート」と言う)とともに組版に使われます。
以下、カスタマイズ用のCSSファイル ahcustom.css で何をしてるか、説明します。

ルート要素のスタイル設定

html {
font-size: 12pt !important;
line-height: 1.75 !important;
margin: 0 !important;
padding: 0 !important;
max-height: none !important;
}

font-sizeを変更し、margin、padding、max-heightの元のCSSでの指定をキャンセルしてます。!important の指定をすることで、著者スタイルシート(vertical.css)での指定をユーザースタイルシート(ahcustom.css)の指定で上書きすることができます(!important指定がないと著者スタイルシートのほうが優先度が高い)。

基本版面設定

ページサイズやマージンの指定は @page ルールを使います。

@page {
size: A5;
margin: auto;
height: 36rem;
width: 15rlh;
background-color: #fff4e7;
}

ページサイズをA5にしました。marginをautoにして、1行の文字数(height: 36rem)と1ページの行数(width: 15rlh)を指定しています。これはAH FormatterでCSS3を拡張した機能です。36remのremは、CSS3での単位でルート要素のfont-size、15rlhのrlhはAH Formatterの拡張単位で、ルート要素のline-heightから計算される行送り量です。

柱とノンブル設定

@page :right {
@top-right {
-ah-writing-mode: horizontal-tb;
font-size: 9pt;
content: "";
}
@bottom-right {
-ah-writing-mode: horizontal-tb;
font-size: 9pt;
content: counter(page);
}
}
@page :left {
@top-left {
-ah-writing-mode: horizontal-tb;
font-size: 9pt;
content: string(title);
}
@bottom-left {
-ah-writing-mode: horizontal-tb;
font-size: 9pt;
content: counter(page);
}
}
title {
-ah-string-set: title content();
}

これは、右ページと左ページそれぞれに柱とノンブルを指定しています。
@top-right、@bottom-right、@top-left、@bottom-leftなどはCSS3 Paged Mediaのマージンボックス(ページヘッダー、ページフッター)の指定です。
本文は縦書きですが、ページヘッダー、ページフッター内は横書きとするために、-ah-writing-mode(-epub-writing-mode でも同じ)で横書きの指定をしています。
content: “…”; は柱の文字列を指定します。content: “草枕”;のように、直接タイトルを書くこともできますが、通常は、XHTML内のtitle要素やh1要素で文字列を設定します(-ah-string-set: title content();)。content: counter(page) でページ番号を出力します。
以上が今回のカスタマイズCSSのだいたいの説明です(実際はもう少し調整のための指定を加えてます)。これを使って組版した結果が右のイメージです。
今回はごく基本的なスタイル指定しかしていませんが、このようなカスタマイズの方法を使って、既存のEPUBファイルの中身に、ユーザーの好みのスタイルを指定して、PDFにするということができます。ぜひ試してみてください。


EPUB3.0とAH Formatter(前編)

電子書籍の世界標準フォーマットEPUB3.0で、縦書き、ルビ、圏点など、日本語組版に欠かせない機能が搭載されました。アンテナハウスは、2010年よりこの仕様策定に協力してきています。
どうしてアンテナハウスがEPUB仕様に取り組んだかは、私たちがAH Formatterという組版エンジン(XML組版の世界標準であるXSL-FO仕様とともに、(X)HTML+CSS3拡張仕様によるページ自動組版に対応)を開発してきたことと、EPUBフォーマットの内容にはXHTML+CSSが使われていること、EPUBの日本語組版要求仕様の元になったW3C技術ノート「日本語組版処理の要件」(JLREQ)の編纂作業に私たちが深く関わっていることから、理解していただけるかと思います。
この成果を利用して、アンテナハウスのクラウド型汎用書籍編集・制作サービス「CAS-UB」では、EPUB版と、PDF版(AH Formatterによる高品質な組版)の電子書籍を同時に制作することができています。

AH Formatterで組版された『日本語組版処理の要件』書籍版、そしてEPUB版

『W3C技術ノート 日本語組版処理の要件』書籍版は、AH Formatter V6のCSS組版によって制作されました。詳しくは:

また、アンテナハウスでは『日本語組版処理の要件』EPUB版も制作しています。CAS-UBブログの次の記事をご覧ください:

EPUB文書をAH Formatterで組版~EPUB3.0のCSS3拡張への対応

CAS-UBサービスではEPUB(2.0と3.0)とPDFの両方が生成できます。では、手持ちのEPUBファイルをAH Formatterで組版することもできるでしょうか?
いまのところアンテナハウスはそれについて何も言っていないのですが、EPUBの内容はAH Formatterが対応しているXHTML+CSSですので、それをAH Formatterで組版することは可能です。方法は、まず、EPUBファイルの内容を展開することです。EPUBはZIP圧縮ファイルですので、ZIP解凍ツールで中身のファイルを展開することができます。
たとえば、IDPFでEPUB3サンプルとして公開されている『草枕』のEPUBファイルをダウンロードして、ZIP解凍すると、/OPS/xhtml/ フォルダに *.xhtml ファイルがあります。これらを AH Formatter に指定して組版することができます。
(AH FormatterでEPUB内容を組版)この図は、AH Formatterで、「草枕」のXHTMLファイルを指定して組版結果を表示した例です。こんなふうに、EPUBに入っているXHTMLとCSSをそのまま使ってもAH Formatterで組版して表示したりPDFに出力することができます。
AH Formatter V6.0は、EPUB3.0のCSS3拡張プロパティ(縦書き指定などCSS3ドラフト仕様を -epub-プレフィクス付きで採用しているもの)をサポートしています。縦書き/横書きの指定(-epub-writing-mode: vertical-rl)、圏点(-epub-text-emphasis-style等)、段組(-epub-column-count等)、縦中横(-epub-text-combine)などです。これにより、この「草枕」の例のようにEPUB3.0のXHTMLに縦書き用のCSSが指定されていれば、そのまま縦書きで組版されます。
今日は、ここまでとして、後編ではさらにこれを応用して、既存のEPUBファイルの内容に、組版体裁を自由にカスタマイズしたCSS(AH FormatterのCSS3拡張機能も利用できる)とをあわせてAH Formatterで組版してPDFを作成する方法を説明したいと思います。


来週迫る!設計・製造ソリューション展出展

来週出展する展示会情報をご提供します。
”設計・製造ソリューション展出展”
日時:6月20日(水)~6月22日(金)
場所:東京ビックサイト 東ホール ブース NO.20-26
(詳細はこちら URL:http://www.dms-tokyo.jp/
PDFServer、AHFormatter、PDF電子署名モジュールなどアンテナハウス製品を各種ご紹介します。さらにブース内では、各製品の事例を含めたミニセミナーも開催いたします。
1)主な展示製品
「AH PDF Server V3」 :新製品  CAD⇒PDF変換機能を追加して、V2か
ら処理性能も大幅アップ!  
「AH Formatter V6」    :多言語マニュアル用 自動組版エンジン
「PDF電子署名モジュール」 :サーバサイドで電子署名・タイムスタンプ付与
検証、暗号化、DRMソリューションも可能
「ServerBasedConverter」 :Linuxサーバ、WindowsServerで稼働するサムネ
イル変換サーバ
「DITAソリューション」 :製造業向け、技術ドキュメント制作・管理ソリ
ューション
2)ソリューション内容
●総務省”新ICT利活用サービス創出事業”『研究・教育機関における電子ブック利用拡大の為の環境整備』でAH_PDF電子署名モジュールが活用の事例公開!
●多言語取説・マニュアルの自動組版のソリューション事例、CADからPDF・セキュリティPDF作成などサーバサイドの自動変換ソリューションをミニセミナーを毎日実施?
是非ともご来場ください。


「JATSによる日本語学術論文の標準化と自動組版」セミナー

こんにちは。XML関連の営業担当です。
先月5月24日に「JATS解説セミナー(JATSによる日本語学術論文の標準化と自動組版)」というセミナーが開催されました。
有償セミナーにも関わらず大勢の皆様にご参加いただきました。ご参加された皆様には心よりお礼申し上げます。
JATSとは学術情報誌(ジャーナル)を記述するためのXMLタグセットです。JATSのベースとしてNLM DTDというものがあったのですが、これに多言語サポートを強化したものがJATSです。
国内での電子ジャーナル公開システムの有名どころとして科学技術振興機構のJ-STAGEがありますが、このJ-STAGEで今年5月よりJATS DTDで書かれた論文の受付が始まっています。
セミナーの前半では、愛知大学の時実教授にJATSの概要解説をしていただき、JATSがどういうものなのか、また、NLM DTDがなぜJATS DTDに移行しないといけなかった等、歴史的背景のお話が興味深かったです。
JATSの仕様策定にあたり日本でも印刷会社や学界の有志がワーキンググループを結成し、米国のNLM DTDワーキンググループに対し数多くの提言を行ったとのことでした。

後半はアンテナハウスからXMLの自動組版の概要やJATSで書かれた論文をPDF化するための手法についてお話しさせていただきました。


セミナー終了後に「XSL-FOについてやっと分かったような気がした」と言ってくださるお客様がいて、まだまだFOの知名度も低いんだなぁと実感したしだいです。
J-STAGEでJATSが採用されたこともあり、今後は各学会の中で一気にJATSが普及することになるでしょう。セミナー終了後の質疑応答も活発に行われました。
参考資料:http://www.antenna.co.jp/xml/xmllist/JATS-status.html


Pages: Prev 1 2 3 ... 5 6 7 8 9 10 11 12 13 14 15 Next