2012-08-15

文字あたりの情報量

nabokov7; rehash : Twitterの140文字は他言語では何文字くらいか
Twitterは560文字制限!? 同じ文字数に込められる情報量の違い

Twitterの1 Tweetあたりの文字数制限は140文字である。ただし、日本語における140文字制限と、英語における140文字制限では、明らかに日本語のほうが表現できる情報量が多い。これは、日本語のほうが文字の種類が多いからである。

では、どのくらいの違いなのか。単にASCIIとCJK文字の種類だけで比較するわけには行かない。文字の中には、ほとんど使われないものまで含まれているからだ。

情報量の比較は、同じ内容を各国語に翻訳したロゼッタストーン的な文章で比較する。キリスト教の聖書や、すでに著作権の切れた翻訳の多い有名な小説などで比較できる。

とりあえず簡単な比較をしてみたところ、日本語の情報量は、英語の2倍ぐらいで。中国語の情報量は、英語の3倍ぐらいらしい。

残念ながら、昔の中国語しか知らないので、現代中国語の感覚はよくわからないのだが、たしかに中国語は文字数あたりの情報量が多いと感じる。もちろん、使う文字も多いからなのだが。

ただし、各国語で文字数を省略するための技を駆使した場合、どうなるのだろうか。たとえば、英語ならば綴りの一部を省略したり、同じ発音を連想する短い綴りを使ったりできる。日本語ならば、熟語を利用したり、冗長な助詞や助動詞を省いたりできる。中国語にも、似たような技はあるだろう。

3 comments:

yx_wh said...

翻訳してみます〜

中国語簡体字:

twitter一推只能发140字。但是,限制输入140字日文和限制输入140字英文相比,明显是用日语能传达更多的信息。这是因为日文文字种类多的缘故。

那么,差别究竟有多大呢?单单比较ASCII字符集和中日韩字符集中文字的数目是行不通的,因为字符集中有些字是罕用字。

要比较信息量的多少,可以像罗赛塔石碑那样将同一文章翻译为不同语言后加以比较。例如比较不同版本的基督教《圣经》或者著作权已经过期了的文章。

简单比较之后,发现日语的信息量是英语的约2倍。据说中文信息量是英语的3倍。

可惜的是,我只会古代汉语文言文,不知道现代汉语怎是怎么样的。不过确实感觉中文每文字信息量大。当然,中文使用的文字种类也更多就是了。

不过,要简写各国文字的话,该怎么办呢?例如,英语省略一部分拼写、或是使用能联想到相同发音的更短拼法。日语则可以使用熟语、省略冗长的助词、助动词。汉语也能用类似的方法吧?

中国語繁体字:


twitter一推只能發140字。但是,限制輸入140字日文和限制輸入140字英文相比,明顯是用日語能傳達更多的信息。這是因為日文文字種類多的緣故。

那麼,差別究竟有多大呢?單單比較ASCII字符集和中日韓字符集中文字的數目是行不通的,因為字符集中有些字是罕用字。

要比較信息量的多少,可以像羅賽塔石碑那樣將同一文章翻譯為不同語言後加以比較。例如比較不同版本的基督教《聖經》或者著作權已經過期了的、譯本眾多的著名小說。

簡單比較之後,發現日語的信息量是英語的約2倍。據說中文信息量是英語的3倍。

可惜的是,我只會古代漢語文言文,不知道現代漢語怎是怎麼樣的。不過確實感覺中文每文字信息量大。當然,中文使用的文字種類也更多就是了。

不過,要簡寫各國文字的話,該怎麼辦呢?例如,英語省略一部分拼寫、或是使用能聯想到相同發音的更短拼法。日語則可以使用熟語、省略冗長的助詞、助動詞。漢語也能用類似的方法吧?

yx_wh said...

>各国語で文字数を省略するための技を駆使した場合
これは速記に近いね。

yx_wh said...

http://ja.wikipedia.org/wiki/情報量

事象Eが起こる確率をP(E)とするとき、 事象 E が起こったことを知らされたとき受け取る(選択)情報量I(E) を

I(E)=\log \frac{1}{P(E)}=-\log P(E)

と定義する。

もし英語におけるすべての英字の頻度が同じであるなら、

I(E)=lg(26)/lg(2)=4.7

である。(実際は4.7より少ない)

キリル文字の場合は

I(E)=lg(33)/lg(2)=5.0

漢字の場合は11.0(常用漢字)~15.8(Unicode Extを含む場合)である。