2010-07-07

まとめて圧縮すると著者推定できる話

Twitter / kiku: 「同じ著者の小説をつなげてzip圧縮したら、複数の著 ...

「同じ著者の小説をつなげてzip圧縮したら、複数の著者の小説をつなげて圧縮するよりも圧縮率がいいから著者推定に使える!」って論文が見つかった。キワモノかと思ったら精度いいし。論文探してるとしばしば「その発想はなかったわ」な物が見つかって面白いが俺は数日前にこれをやっとくべきだ。

どうやらこの論文らしい。

CiNii Article - 圧縮プログラムを応用した著者推定

なんだか論文の数字は高精度すぎて怪しいが、本当だろうか。

1 comment:

萌ゑ said...

同じ著者は同じボキャブラリーを使う可能性が高いから同じコードに変換されて圧縮率が高くなるのかもしれませんね。