本の虫: RFC 5242 超汎用文字コード

RFC5242 A Generalized Unified Character Code: Western European and CJK Sections

世の中には、文字コードがさまざまある。ASCIIは最も有名だろう。日本語を表す文字コードだけでも、本当に大量にある。

例えばJISコード。これは糞もいいところだ。まったくもってコンピュータで処理したいような文字コードではない。何とかマシにしようと、マイクロソフトはシフトJISを作った。JISよりはマシだが、実際色々と問題が多い。一体、あるバイトが、一バイト文字なのか、あるいはマルチバイトの二バイト目なのかが、簡単に判別できない。最悪、文字列の先頭までたどる必要がある。マイクロソフトのほかにも、EUC-JPなんてものを作った奴らもいる。やめてくれ。これ以上混乱させるな。

このカオスな状況を打破し、全世界の文字を、ひとつの文字コードに統一しようと、Unicodeが作られた。これは16bitで、すべての文字を表現できる……はずだった。

最初のUnicode規格が公開されてからというもの、残っていた未登録領域の割り当てをめぐって、大量の文字が殺到した。

チャイニーズやジャップどもは、「漢字」と呼ばれる、未開で野蛮な表意文字を、実に一万五千も、新たに登録しようとした。また、コリアンというリテラシーの無い民族は、ハングルという、表音文字にもかかわらず、1万1172文字もあるというフザけた文字を、すべて登録すべきだと主張した。その他にも、ヒエログリフなどの、死語となった文字を含めるべきだという要求が大量に来た。

哀れむべきは、まんじとハーケンクロイツ、卍と卐だろう。ああ、汝は実に三千年の歴史を持っているのだ。インドを発祥とし、仏教文化に深く影響を与えてきた、偉大な文字よ。それなのに、今の扱いはどうだろう。マイクロソフトの文字コード表は、U+5350を表示しない。他の文化と歴史を重んずることのない西側の人間のせいである。ああ、U+534DとU+5350よ。かつてはお前を家紋とする日本人もいたというのに。

こうして、哀れUnicodeは、その崇高な目標を達せず、数ある文字コードの中のひとつ、という地位に成り下がってしまった。いずれはUnicodeに収束していくと思われるが、いまだにシフトJISを使うジャップと、EUCを使うアカの手先、そして最悪な、ASCIIという7bit文字の世界に生きる西側の連中は、いまだに多い。

もういい。一体文字コードというのは、文字を表すのだ。そも、文字というのは、我々の話す言語を、符に置き換えたに過ぎぬ。もしそれ、複数の文字が、まったく同じ形を有するならば、それは同じ文字に異ならず。それが、RFC5242である。

いい加減に疲れた？　うん、まあ、この辺にしておこう。ざっと説明すると、RFC5242というのは、文字そのものではなく、文字の形を表現する文字コードである。縦横の線であるとか、点であるとかを表現することによって、文字を表現する。もし、まったく同じ形の文字があれば、それは同じ文字である。それってアウトラインフォントだよねぇ。CJK文字を表現するのに、一文字何百バイト必要になるんだろう。超可変なマルチバイト文字コードになるだろう。

本の虫

2008-05-02

RFC 5242 超汎用文字コード

No comments:

Post a Comment