もの凄く面白い本に出会ったので紹介します。
「この本では、やさしい計算だからという理由でその前提が成り立たない場合にも誤って応用されてきた理論の限界を述べ、反対に数理が必要になるという理由で実用上大切であるにもかかわらず知られていなかった一般法則を明らかにする」
かっけえ・・・
以下では、この本特有の『実用上大切な法則』とは何かについて紹介したいと思います。(30ページしか読んでないで紹介してます)
自由エネルギー
ベイズの公式の分母P(B)はEvidenceと呼ばれます。
上の式は、n個の数値からなる観測データ(サンプル)X^nからパラメータwの推定を行う場合の式で、パラメータの事前分布φ(w)とサンプルに対する尤度関数L(w|X^n)=P(X^n|w)を推定者が与えています。Evidenceは、与えた事前分布と確率モデル(尤度関数)が正しかった場合にサンプルX^nが起きる確率で、仮定の証拠(妥当性)を意味します。
計算が大変なので、ベイズ推定を行ううえではEvidenceは定数として単に無視されることが多いですが、この本では物理学を使ってEvidenceの役割に切り込んでいきます。
これがβというパラメータを追加して定義され直したEvidence、分配関数です。しかもこのβは予想通り、逆温度という名前です。完全に物理学です。ただし、物理学と違うのは、分配関数はサンプルの確率変数だという点です。なので厳密にはZ(β, X^n)です。
β=1なら先ほどの式と一致するのですが、なんとβは1ではなく0から∞まで動きます。ここで度肝を抜かれました。
さらに、β→∞ととると、尤度最大化を意味します、と書いてあってまた度肝を抜かれました。
自由エネルギーとは分配関数のlogです。
一見意味の分からない自由エネルギーですが、自由エネルギーを考える意味は、自由エネルギーのサンプルでとった期待値にあります。サンプルで期待値をとるとは、真の分布q(x)で期待値をとることです。
これは、真の分布のエントロピーとカルバック・ライブラDivergenceとの和です。nSは定数ですからつまり、自由エネルギーの期待値は、ベイズ推定の正確度になるのです。
ただし、期待値ではなく、1個のサンプルに対する自由エネルギーからは推定の精度は分かりません。これについては本論で語られます。
それでは、自由エネルギーの大きさを見ることにより、どの程度まで推測の精度について調べることが出来るのだろうか。本書では、この問題について調べていくことにする。
汎化誤差
ベイズ推定は、事前分布と確率モデルを与えて事後分布を得、さらに事後分布で確率モデルを平均化し予測分布を得る方法です。結局、予測分布が真の分布に近づいたかどうかは自明ではありません。
1つの基準として、以下の汎化損失があります。
しかもこの汎化損失は、自由エネルギーの増分なのです。
しかしこの式は知りえない真の分布q(x)を含んでいるため、計算できません。しかし、実はサンプルから以下の経験誤差を計算することで、TnからGnを推測することが出来るのです。
もしTnからGnを推測することができるときわめて有用であると思われる。本書ではTnからGnを推測する方法について考察していく。
超関数・特異点解消定理
MacKayなどを読んでいると、事後分布が正規分布で全く近似できない場合が多いことに気づきます。例えば、大局的に広がる場合には、ピークが立つというよりは、低次元の部分曲面上に山脈のように分布する場合があります。普通だと、手も足も出ないので、コンピューターで事後分布の形をプロットしたりするのが限界になります。
4章には多様体・超関数・特異点解消定理を使って事後分布がどんな形でも扱えるようにすると書いてあります。
まとめ
他の本では書いていないようなことが多く、ワクワクさせられます。
普通の人が疑問に思わないもしくは諦めてしまうような基礎的なところに力ずくで切り込んでいくというテーマが、本書の魅力だと思います。私も勉強中です。是非ご一読いただければと思います。
ピンバック: データサイエンス人気記事 - The Big Computing
ピンバック: まとめ:確率論のマインドマップ2 - The Big Computing