英単語のエントロピー

英語の単語を頻度順に並べると、ある法則に従うことが知られています。

$p_n \sim\begin{cases}\displaystyle\frac{0.1}{n} (n \le 12367) \\0 (otherwise)\end{cases}$

すごくないですか?これをZip則といいます。(べき乗則とも、ロングテールとも言います)

[amazonjs asin=”4153200042″ locale=”JP” title=”ロングテール(アップデート版)―「売れない商品」を宝の山に変える新戦略 (ハヤカワ新書juice)”]

問題は、このZip則のエントロピーを計算することです。これはHaskellで1行で書けます。

(*) (1 / log 2) \
$ foldl (\s (x,y) -> s + (y-log 0.1)*0.1/x) 0 \
$ zip [1..12367] \
$ map log [1..12367]

9.7162584765207

(*) (1 / log 2) \

$ foldl (\s (x,y) -> s + (y-log 0.1)*0.1/x) 0 \

$ zip [1..12367] \

$ map log [1..12367]

9.7162584765207

答えは、9.7ビットです。

英語の英単語の平均的な長さは4.5文字で、英語のアルファベットは1文字あたり4.1ビットの情報があるので、単語あたりのエントロピーは約18.5ビットとなります。つまり、18.5-9.7=約8.8ビットの余剰情報量が含まれています。

そのため、こういう文章が読めちゃうんだそうです。職場の先輩に教りしまわた。あがりたや。

こんちにはみさなんおんげきですか？　わしたはげんきです。
このぶんょしうはいりぎすのケブンッリジだがいくのけゅきんうのけっか
にんんげはたごんをにしんきするときにそのさしいょとさいごのもさじえあいてっれば
じばんゅんはめくちちゃゃでもちんゃとよめるというけゅきんうにもづいとて
わざともじのじんばゅんをいかれえてあまりす。
どでうす？　ちんゃとよゃちめうでしょ？