« 2006年10月27日 | メイン | 2006年10月29日 »
2006年10月28日
Unicode Line Breaking Properties と禁則文字
日本語組版に精通している人ならば、日本語の行頭禁則文字や行末禁則文字についての知識はお持ちのことと思います。
行頭禁則文字や行末禁則文字という概念をもう少し広い概念でとらえたものに、「Unicode Line Breaking Properties」という規則があります。
最新版:Line Breaking Properties 19版
最新版は、2006年8月22日に出たもので、Unicode 5.0の一部となっています。
Unicode Line Breaking Propertiesという仕様は、文字の前後で改行できるかどうかという観点から文字をいくつかのグループに分けて改行についての挙動を示しているものです。
たとえば、英語の組版では、原則は、(1)単語間の空白で改行し、(2)必要に応じて単語をハイフネーションすることができるということです。しかし、この単純な原則だけでは必ずしも十分ではありません。たとえば、The Chicago Manual of Styleの15版には、単語の区切りという節があり次のような区切りは良くないとあります。
・7-40 名前の中の番号や、Jr.、Sr.の前できってはいけない。
例) Elizabeth II は改行するなら、Eliz- /abeth II とする。
・7-42 単位の数字と単位の略語の間では区切らない。
例) 345 m のような場合、数字と単位は行末で別れないように。
・7-43 行の中のリスト
行の中に(3)、(c)のような文中の箇条書き番号が出現したら、箇条書き番号と続く文字は同じ行にはいるようにする。
これは、空白があっても空白で改行してはならないケースですが、逆に空白でなくても記号類で改行できることもあります。Unicode Line Breaking Propertiesを見ますと、次のような分類があります。
B2 前後で改行できる 例:emダッシュ
BA 後ろで改行できる 例:空白、ハイフン
BB 前で改行できる 例:辞書の中の句読点
HY ハイフン 数字の中を除き、後ろで改行できる
CB 他の情報次第で改行できる
そして、逆に、改行を禁止する文字の種類として
CL 閉じ括弧 文字の前で改行することを禁止
EX 感嘆符(!) 同上
IN リーダのように対の間で改行できない
NS 非開始文字 例:小さな「かな」文字
OP 開き括弧 文字の後ろで改行することを禁止
QU 曖昧な引用符 開き括弧と閉じ括弧の両方の役割
などがあります。
さて、上の文字の属性のみで単純に判断すると、例えばUTF-16というような単語がUTF-と16で切れてしまったり、example(s)の開き括弧の前で改行が起きてしまいます。
Unicode Line Breaking Propertiesでは、このあたりをもう少し詳しくルールを決めているのですが、それはまた明日。
The Chicago Manual of Styleとは
シカゴ大学の出版部が出している米国の代表的な編集マニュアル。