nabokov7; rehash : Twitterの140文字は他言語では何文字くらいか
Twitterは560文字制限!? 同じ文字数に込められる情報量の違い
Twitterの1 Tweetあたりの文字数制限は140文字である。ただし、日本語における140文字制限と、英語における140文字制限では、明らかに日本語のほうが表現できる情報量が多い。これは、日本語のほうが文字の種類が多いからである。
では、どのくらいの違いなのか。単にASCIIとCJK文字の種類だけで比較するわけには行かない。文字の中には、ほとんど使われないものまで含まれているからだ。
情報量の比較は、同じ内容を各国語に翻訳したロゼッタストーン的な文章で比較する。キリスト教の聖書や、すでに著作権の切れた翻訳の多い有名な小説などで比較できる。
とりあえず簡単な比較をしてみたところ、日本語の情報量は、英語の2倍ぐらいで。中国語の情報量は、英語の3倍ぐらいらしい。
残念ながら、昔の中国語しか知らないので、現代中国語の感覚はよくわからないのだが、たしかに中国語は文字数あたりの情報量が多いと感じる。もちろん、使う文字も多いからなのだが。
ただし、各国語で文字数を省略するための技を駆使した場合、どうなるのだろうか。たとえば、英語ならば綴りの一部を省略したり、同じ発音を連想する短い綴りを使ったりできる。日本語ならば、熟語を利用したり、冗長な助詞や助動詞を省いたりできる。中国語にも、似たような技はあるだろう。
3 comments:
翻訳してみます〜
中国語簡体字:
twitter一推只能发140字。但是,限制输入140字日文和限制输入140字英文相比,明显是用日语能传达更多的信息。这是因为日文文字种类多的缘故。
那么,差别究竟有多大呢?单单比较ASCII字符集和中日韩字符集中文字的数目是行不通的,因为字符集中有些字是罕用字。
要比较信息量的多少,可以像罗赛塔石碑那样将同一文章翻译为不同语言后加以比较。例如比较不同版本的基督教《圣经》或者著作权已经过期了的文章。
简单比较之后,发现日语的信息量是英语的约2倍。据说中文信息量是英语的3倍。
可惜的是,我只会古代汉语文言文,不知道现代汉语怎是怎么样的。不过确实感觉中文每文字信息量大。当然,中文使用的文字种类也更多就是了。
不过,要简写各国文字的话,该怎么办呢?例如,英语省略一部分拼写、或是使用能联想到相同发音的更短拼法。日语则可以使用熟语、省略冗长的助词、助动词。汉语也能用类似的方法吧?
中国語繁体字:
twitter一推只能發140字。但是,限制輸入140字日文和限制輸入140字英文相比,明顯是用日語能傳達更多的信息。這是因為日文文字種類多的緣故。
那麼,差別究竟有多大呢?單單比較ASCII字符集和中日韓字符集中文字的數目是行不通的,因為字符集中有些字是罕用字。
要比較信息量的多少,可以像羅賽塔石碑那樣將同一文章翻譯為不同語言後加以比較。例如比較不同版本的基督教《聖經》或者著作權已經過期了的、譯本眾多的著名小說。
簡單比較之後,發現日語的信息量是英語的約2倍。據說中文信息量是英語的3倍。
可惜的是,我只會古代漢語文言文,不知道現代漢語怎是怎麼樣的。不過確實感覺中文每文字信息量大。當然,中文使用的文字種類也更多就是了。
不過,要簡寫各國文字的話,該怎麼辦呢?例如,英語省略一部分拼寫、或是使用能聯想到相同發音的更短拼法。日語則可以使用熟語、省略冗長的助詞、助動詞。漢語也能用類似的方法吧?
>各国語で文字数を省略するための技を駆使した場合
これは速記に近いね。
http://ja.wikipedia.org/wiki/情報量
事象Eが起こる確率をP(E)とするとき、 事象 E が起こったことを知らされたとき受け取る(選択)情報量I(E) を
I(E)=\log \frac{1}{P(E)}=-\log P(E)
と定義する。
もし英語におけるすべての英字の頻度が同じであるなら、
I(E)=lg(26)/lg(2)=4.7
である。(実際は4.7より少ない)
キリル文字の場合は
I(E)=lg(33)/lg(2)=5.0
漢字の場合は11.0(常用漢字)~15.8(Unicode Extを含む場合)である。
Post a Comment