« 2006年02月08日 | メイン | 2006年02月10日 »

2006年02月09日

PDFと文字 (42) – ハングル音節文字の合成

次に、2006年02月03日PDFと文字 (40) – Unicode標準形式NFCの問題点で挙げましたが、ハングルの字母(Jamo)で表されたテキストをNFCにすることでハングル合成文字(Johab)にすることが可能、という点について調べてみます。

以前に、2006年01月18日PDFと文字(26) – ハングルの扱いで、ハングル音節文字(Johab)は字母からプログラムで合成できると書きましたが、これは具体的には、字母で表された文字列をNFCにするということを指します。

こんどは、実際に試して見ましょう。

(1) まず、ハングルの「こんにちは」は、「アンニョンハセヨ」と言うらしいですが、このハングル表記を調べます。そして、各音節文字を初声、中声、終声に分解します。

Example-source.PNG

(2) これをUnicodeのJamoの文字列として表します。次のようになります。

Example-source1.PNG

(3) この文字列をXSL FormatterV4.0(Alpha)で標準形NFCにして表示します。

Example-result.PNG

このように、ハングルの字母で表した文字列をNFCにすることで、合成文字Johabにして表示することができることを確かめることができます。

試しに、同じ文字列をMicrosoft Word2003で表示しますと次のようになってしまいます。

Example-result-word.PNG

どうやらMicrosoft Word2003は、まだ、ハングルの字母を合成することはできないようですね。

投票をお願いいたします

投稿者 koba : 08:00 | コメント (0) | トラックバック