RFC5242 A Generalized Unified Character Code: Western European and CJK Sections
世の中には、文字コードがさまざまある。ASCIIは最も有名だろう。日本語を表す文字コードだけでも、本当に大量にある。
例えばJISコード。これは糞もいいところだ。まったくもってコンピュータで処理したいような文字コードではない。何とかマシにしようと、マイクロソフトはシフトJISを作った。JISよりはマシだが、実際色々と問題が多い。一体、あるバイトが、一バイト文字なのか、あるいはマルチバイトの二バイト目なのかが、簡単に判別できない。最悪、文字列の先頭までたどる必要がある。マイクロソフトのほかにも、EUC-JPなんてものを作った奴らもいる。やめてくれ。これ以上混乱させるな。
このカオスな状況を打破し、全世界の文字を、ひとつの文字コードに統一しようと、Unicodeが作られた。これは16bitで、すべての文字を表現できる……はずだった。
最初のUnicode規格が公開されてからというもの、残っていた未登録領域の割り当てをめぐって、大量の文字が殺到した。
チャイニーズやジャップどもは、「漢字」と呼ばれる、未開で野蛮な表意文字を、実に一万五千も、新たに登録しようとした。また、コリアンというリテラシーの無い民族は、ハングルという、表音文字にもかかわらず、1万1172文字もあるというフザけた文字を、すべて登録すべきだと主張した。その他にも、ヒエログリフなどの、死語となった文字を含めるべきだという要求が大量に来た。
哀れむべきは、まんじとハーケンクロイツ、卍と卐だろう。ああ、汝は実に三千年の歴史を持っているのだ。インドを発祥とし、仏教文化に深く影響を与えてきた、偉大な文字よ。それなのに、今の扱いはどうだろう。マイクロソフトの文字コード表は、U+5350を表示しない。他の文化と歴史を重んずることのない西側の人間のせいである。ああ、U+534DとU+5350よ。かつてはお前を家紋とする日本人もいたというのに。
こうして、哀れUnicodeは、その崇高な目標を達せず、数ある文字コードの中のひとつ、という地位に成り下がってしまった。いずれはUnicodeに収束していくと思われるが、いまだにシフトJISを使うジャップと、EUCを使うアカの手先、そして最悪な、ASCIIという7bit文字の世界に生きる西側の連中は、いまだに多い。
もういい。一体文字コードというのは、文字を表すのだ。そも、文字というのは、我々の話す言語を、符に置き換えたに過ぎぬ。もしそれ、複数の文字が、まったく同じ形を有するならば、それは同じ文字に異ならず。それが、RFC5242である。
いい加減に疲れた? うん、まあ、この辺にしておこう。ざっと説明すると、RFC5242というのは、文字そのものではなく、文字の形を表現する文字コードである。縦横の線であるとか、点であるとかを表現することによって、文字を表現する。もし、まったく同じ形の文字があれば、それは同じ文字である。それってアウトラインフォントだよねぇ。CJK文字を表現するのに、一文字何百バイト必要になるんだろう。超可変なマルチバイト文字コードになるだろう。
No comments:
Post a Comment
You can use some HTML elements, such as <b>, <i>, <a>, also, some characters need to be entity referenced such as <, > and & Your comment may need to be confirmed by blog author. Your comment will be published under GFDL 1.3 or later license with no Invariant Sections, no Front-Cover Texts, and no Back-Cover Texts.