カテゴリー別アーカイブ: 文字コード

UTR50(Unicode縦書きの文字の向き仕様)標準化のために

ツイッターでの議論(ハッシュタグ #UTR50)のまとめサイト:
UTR#50(Unicodeの縦書きの文字の向き)の話題 #UTR50

議論は主に2つあると思います。

SVO(英数字正立)の議論

ひとつはUTR50が定義しようとしている2つの縦書きモード SVO(Stacked Vertical Orientation = 英数字も正立)およびMVO (Mixed Vertical Orientation = 英数字は横倒し)のどちらが日本語の縦書きのデフォルトの文字の方向として便利であるかということ。今朝の @TokKoba (小林徳滋@アンテナハウス)のツイート:

「英数字正立論」を「SVOを基本とするコンテンツマークアップのすすめ」という題名に変更しようかと思案中。横書きした文書を縦書きで表示したとき、できるだけそのまま読め、かつ、マークアップが容易という点で、MVO方式よりSVO方式を基本とするのが優れている、という趣旨。

マークアップが容易というよりマークアップがコンテキスト準拠になるのだ。MVOでは寝た文字を起こすためにマークアップを使うがこれはレイアウト・マークアップだ。SVOでは立ってしまう欧文などを寝かせるためにマークアップするが、これはコンテキスト・マークアップになる。

私は、SVOとMVOを場合によって使い分けることができればよいと思います。MVOをデフォルトとしても、自動縦中横の機能があれば、単独の欧字や2桁までの数字を縦中横・正立にすることができるので、マークアップの手間をなくすことができます。自動縦中横や自動正立の機能を定義するためには、どの文字がデフォルトで横倒しかがはっきりしている必要があるので、MVO仕様は重要です。

MVOの議論(英数字は横倒し、では記号類は?)

MVOは、横書き用の文字(洋数字、ラテン文字など)は縦書きで横倒しにするというものですが、問題になっているのは、横書き用といえるかどうか曖昧さがある記号類です。

WebKitの現在の縦書きの実装では、記号類がほとんど横倒しになってしまいます。丸数字①②③、星★、三角▲、絵文字☎など、みな横倒しで表示されます。和文専用の文字(全角の英数字も含む)だけ正立でほかは横倒しというのは、とても分かりやすい仕様といえますが、これがデフォルトではさすがに使いにくいのではないかと思います。

一方、現在のUTR50ドラフトのMVOは、パーミル‰のような単位や欧文用の記号(たとえば§や¶)が正立であるなど、ほんとうに正立でよいのか議論になっているものがあります。

アドビ山本氏によるUTR50 MVO仕様への提案

MVO仕様を完成させためには、まずMVOの正立・横倒しの基準を明確にすることが大事です。そのために、アドビの山本太郎氏による提案 About the MVO of UTR # 50 (Comments by Taro Yamamoto) が、参考になると思います。とくに次の部分:

3. Symbols and abbreviations
3.1.1. “Would be Upright” Priorities

U3: Symbols and abbreviations that are mere pictures or geometric shapes without any directionality.
(記号類のうち方向性を持たない絵文字や幾何学図形:☎や★や▲は正立)

U4: Western-origin ligatures and abbreviations whose decomposed forms can be represented with ordinary Latin alphabet characters or Arabic numbers or symbols that are −90 degrees rotated in vertical lines.
(欧文由来の合字や略字であっても分解して通常のラテン文字や数字や記号を使って書くことができるものは正立。これにより℃やⅣや¼や№は正立)

3.1.3. “Would be Rotated” Priorities

R4: Symbols and abbreviations that are originated in Western typography or writing systems.
(欧文由来の記号類や略字類は横倒し:これにより©§¶†‰℀などは横倒し)

このような基準によって見直されたMVOのデータが提案文書(PDF)に含まれています。これを、もとのUTR50ドラフトに含まれるデータ(Unicodeデータファイルの形式と、より分かりやすいHTML形式)と同じ形式にして比較しやすくしたものを作ってみました:

HTML形式のほうは、UTR50の現在のデータに対して変更されているところを色付きにしてみました。レビューの参考にしてください。

続きを読む


CSSの縦書きとUnicodeの縦書きの文字の向き(UTR#50)の話題

(追記2012-02-04)Twitterでの議論まとめ(随時更新中。ハッシュタグは #UTR50)

「電子書籍、電子出版のCAS-UBブログ」
のほうで、CSSの縦書きとUnicodeの議論 UTR#50: Unicode Properties for Vertical Text Layout (Proposed Draft) がホットです(by小林社長):

私(村上)のほうはというと、ラテンアルファベットと数字を縦にするか、横にするか、というのは、両方ありとして、ラテンアルファベットと数字を横にする場合に、そのほかの文字の向き(とくに和文でも欧文でも使われる記号類など)はどうするかということに関心があります。

以下、UnicodeのフォーラムにUTR#50へのコメントを投稿(英語)したことについて、EPUB仕様についての情報・意見交換のML(←関心のある方はぜひ参加ください)に投稿したものを転載します:

Subject: UTR#50: 正立・横倒し両方ありえる文字の向き
—-

村上です。

Unicodeのフォーラムに今朝次の投稿をしてます:

Default orientation of upright/sideways ambiguous characters
http://unicode.org/forum/viewtopic.php?f=35&t=252

書いたことは、別のところで前から書いてる意見ですが:

レガシーな日本語ワープロでは縦書きで全角文字は正立(または変形)、半角(または幅狭)文字は横倒しということになってました。UTR#50の今のドラフトはその慣例に従っているようで、そこは若干問題あると思っています。

Unicodeに英数字類の全角形のコードポイントが存在するのはレガシーな理由のためであり、これからは、縦書きで英数字を正立させるために全角文字の使用を推奨するべきではなく、通常の英数字類でも正立にすることができる必要があると思います。CSS3 Writing Modes仕様には、そのために ‘text-orientation: upright’ があります。UTR#50でも、この「正立だけモード」(括弧やダッシュ類や罫線など一部の文字を除いては基本的に正立)を定義するべきでしょう。

いまのUTR#50ドラフトは、「正立・横倒し混在モード」(縦書きで通常の英数字類は横倒し)を定義しようとしているのだと私は理解してます。このモードにおいては、正立・横倒し両方ありえる曖昧な文字(Unicode仕様でEast Asian WidthプロパティがAmbiguousとされてるもの、あるいはJLREQ文字クラスでcl-19漢字類とcl-27欧字類の両方に含まれているもの)をどうするかが問題ですが、それらは基本的に横倒しにして英数字類と一致させるべきだろうと思います。(ただし丸囲み数字など和文テキストで全角扱いでよく使われていて欧文ではそれほど使われないような文字なら正立のほうがよさそうではあります。)

たとえば、次の文字は今のUTR#50ドラフトでは正立とされていますが、横倒しとすべきかと思います。

U+00A7 § SECTION SIGN
U+00AE ® REGISTERED SIGN
U+00B0 ° DEGREE SIGN
U+00B1 ± PLUS-MINUS SIGN
U+00B6 ¶ PILCROW SIGN
U+00BC ¼ VULGAR FRACTION ONE QUARTER
U+00BD ½ VULGAR FRACTION ONE HALF
U+00BE ¾ VULGAR FRACTION THREE QUARTERS
U+00D7 × MULTIPLICATION SIGN
U+00F7 ÷ DIVISION SIGN
U+2016 ‖ DOUBLE VERTICAL LINE
U+2020 † DAGGER
U+2021 ‡ DOUBLE DAGGER
U+2022 • BULLET
U+2024 ․ ONE DOT LEADER
U+2030 ‰ PER MILLE SIGN
U+2032 ′ PRIME
U+2033 ″ DOUBLE PRIME
U+2035 ‵ REVERSED PRIME
U+20AC € EURO SIGN
U+2103 ℃ DEGREE CELSIUS
U+2105 ℅ CARE OF
U+2109 ℉ DEGREE FAHRENHEIT

(これらの文字を正立で使いたいというときはだいたい英字や数字も正立にしたいという場合であるので、その場合、正立だけモードを使えばよいということになります)

投稿内容は以上。

「ただし丸囲み数字など…は正立のほうがよさそう」と書いたところは、ちょっと弱いところです。
℃(U+2103)なども、横倒しなら°とCを書けばよいのだから一文字の℃ならいつも正立でよいのかもしれません。
このあたりは今後の議論で決まればよいと思います。私はそれほどこだわりません。
だいたい、今のOpenType和文フォントでvrt2で横倒し字形があるような文字ならみな横倒しがよいだろうと思います。
参考、Twitterから:
monokano:@KAN0U @ogwata 一応念のため ver2 の一覧PDFです http://tama-san.com/test2/vrt2_IwaUDMinPro-Md.pdf (立てたくない文字と縦組用グリフが並んでますね、なるほど〜) [http://twitter.com/monokano/status/164225572325691392]

正立だけモードをデフォルトにすべきという意見もありますが(小林社長 http://blog.cas-ub.com/?p=862 )私は、Unicode仕様でどちらが縦書きの標準と決めなくてもよいと思っています。

正立・横倒し混在モードで、曖昧な文字を正立優先としてしまった場合に問題が大きいのはダブルクオートとシングルクオートであると思います。
縦書きの中で欧文が横倒しなのに “I don’t know.” の “ ’ ” が正立(あるいはフォントによって別の引用符に変換)されて表示されたら、とてもおかしな結果になります。
これについては前にコメント投稿してます:
http://unicode.org/forum/viewtopic.php?p=612#p612