機械学習と測度論 - The Big Computing

「機械学習にルベーグ積分（測度論）は必要か？」

これは使い古されてきた疑問です。

ベイズにしろ、有限時間で終わらないデータ（確率過程）にしろ、ルベーグ積分があった方が良い（十分性）は明らかです。では必要とまで言えるのか。

このノートでは、機械学習のための測度論を深く学んだ結果を書きます。機械学習に測度論が必要かの議論に終止符を打ちます。

Table of Contents

Yakov Sinaiはどんな人か

1935年生まれ。博士論文のアドバイザーはコルモゴロフ(Andrey Kolmogorov)。プリンストン大学教授、フィールズ賞委員会会長などを歴任。

確率論の教科書が有名。大学2年生向けなのに難しくて死にそう。

とはいえ弱収束の測度論的証明や大偏差が載っていてコンパクトなこの本は貴重で手放すことができない。

それではいったいどんなことがこの教科書には書いてあるのか。

多数受賞歴あり。主な業績だけでもすごいものばかり。

Kolmogorov-Sinai entropy
Sinai’s billiards
Sinai’s random walk
Sinai-Ruelle-Bowen measures
Pirogov-Sinai theory

p1〜p6: 測度論

最初の章では、確率空間とは何かが語られる。確率空間とは、Ωという集合と1という数字をそれぞれ加法族で分割し、1点の確率はゼロだが集合の確率が正の値になるようにしたもの。

Ωの分割

集合Ωの分割を考える。この分割同士を和集合でくっつけて加法族をつくる。加法族は、有限個・可算無限個両方あり得る。

逆に、加法族から分割を作ることができる。

完全加法族が必要なわけ

可算無限回合併できるものは完全加法族という。合併するたびに少しずつ集合は大きくなっていくので、面積は単調増加列になる。

この面積こそが確率で、その数列が完備だと確率論になる。(定理1.5)

特異測度は可。たとえば1点の確率を0ではなく正の値にする。デルタ関数的なイメージだ。

Ωの例

例1) 一番簡単なΩは「コイン投げ1回」空間。

例2) 次に簡単なΩは「コイン投げn回」空間。

例3) 「アルファベットXの可算無限個の直積空間」

例4) Ω=R^n(実数空間)。完全加法的で可測なルベーグ測度で分割。

例5) Ω=R^n(実数空間)の場合だが、分割が異なる場合。例えばΩを2分割した分割を考えるなど、有限分割もありうる(有限クラス分類の問題など)。

可測空間の反例

(Ω,F)が可測空間になるのは、Fが完全加法族になるときだけでR^nの任意の分割がなんでも可測になるわけではない。

p7～p11: 確率変数

確率変数の定義

まずΩが有限の場合は、全ての実数関数が確率変数なので、加法族の確率は元の確率の和。

Ωが無限集合で、その分割が完全加法族の場合、可測関数のみが確率変数になる。

fが可測であるとは任意の実数aに対しfの逆像が完全加法族Fに含まれること。

確率測度の定義

ところでなぜ確率論は可測空間でしか展開できないのか?それは次の定理があるからである。

定理1.5: 確率Pの標本空間が可測空間であることと、次の数式は同値である。

$P(\bigcap_{i=1}^\infty C_{i})=\lim_{i\to\infty}P(C_{i})$

可測性の使い方

1点aの確率を求めるには、区間[a,b)の逆像を考えて、その極限b→aを取る。つまり集合列C_iは区間の逆像であって、aの逆像はlim∪C_i。

$f^{-1}(a) = \displaystyle\lim_{b_i \to a} f(\displaystyle\bigcap_{i=1}^\infty [a, b_i) ) \in \mathcal{F}$

またΩ=片側実数上(0～∞)の確率分布を考えるとき、増大集合列{C}を[i,i+1)と取れば、

$\lim_{i\to\infty}P(C_{i})=P(\bigcup_{i=1}^\infty C_{i})=P(\mathbb{R}_{+})=1$

である。これは、何か事象が起これば絶対にΩに含まれることを意味する。

p12～p17: 確率不等式

チェビシェフの不等式

「確率変数は期待値を大幅に超えることはほとんどない」という法則。

$P(\omega \vert \left| f(\omega) - E \xi \right| \geq t) \leq \displaystyle \frac{Var \xi}{t^2}$

コーシー・シュワルツの不等式

相関係数が-1~1で、+-1の時はある定数が存在してaξ+bとかける。コーシー・シュワルツの式から従う。二次関数が凸で接点が1個ということ。

大数の法則

大数の法則とは、標本平均はサンプル数が大きいとき期待値に近づくという法則である。

独立試行列では、必ず大数の法則が成り立つ。これはチェビシェフの不等式で証明できる。

$P \{ \omega \vert \exists j \ \vert \frac{\nu^{(j)}}{n} - p^{(j)} \vert \geq \delta \} \to 0$

あらゆる分布で成り立つ

確率不等式は、どんな確率分布でも成り立つ偉大なものである。意外にアルゴリズムを作るとき直接使われたりする。（参考：確率不等式のリスト）

まず確率変数に対し期待値と分散が導入され、チェビシェフの不等式(1)・チェビシェフの不等式(2)・コーシー・シュワルツの不等式が紹介される。

チェビシェフの不等式は独立試行列以外でも成り立つから、大数の法則も独立試行列以外で成り立つとわかる。

大数の法則の反例

独立試行列でなければ、反例が作れる。

例）観測するたびに期待値が1ずつ増える確率変数

p18～p28: 独立試行列

独立試行列の確率空間

標本空間 $\mathbb{R}^n$ は通常のユークリッド空間と同じように、任意の部分空間に意味があるとは限らない。完全加法族として、ボレル集合族を取るのは「やりすぎ」で、意味の不明瞭な集合も含んでしまう。

完全加法族としては、 $(\mathbb{R})^{[1..n]}$ 上で「シリンダー」を拡張して考えたほうがよい。1からnまでには順序がついているので、直積空間ではない。

シリンダーを拡張した（全てを含む必要最小限の）完全加法族がただ一つ存在する。

シリンダー

有限次元シリンダー(i_1, …, i_r)は以下のように定義する。直感的には斜めの事象を許さないということで、長方形のような概念だろうか。r<nの可能性に注意する。長方形の”辺”B_iをそれぞれボレル集合族からとる。

$\{\omega \vert x_{i_1} \in B_1, ..., x_{i_r} \in B_r\}$

全シリンダーについて確率が計算できれば十分である(補題2.1)。任意の完全加法族の元について、シリンダーの確率から確率計算ができる(定理2.2)。

Ωの例：アルファベット列

アルファベット空間Xはどんな確率空間でもよい。

標本空間 $\mathbb{R}^n$ は、アルファベットX=Rととり長さnの単語を考えることでコイン投げ空間から拡張された。

シリンダーの例

「無限回コインを投げた時、最初の10回が表である事象」。

「少なくとも10回以上表が出る事象」は似ているが複雑で、シリンダーを可算無限個足し合わせて構成する。

p28〜p36: エントロピー

典型的数

ほぼ全ての数は無限桁であるが、そのうちほぼ全ての数が0~9を等頻度で出現させ、それを典型的数というという話。

典型性の議論はDavid Mackayの本でも”Typicality”として登場していて、情報理論とベイズ推定においても重要な概念である。

エントロピー

独立試行列の確率空間は、 $n \to \infty$ で一様分布 $e^{-nh}$ に収束する。これをマクミランの定理といい、hをエントロピーという。しかも、一様分布領域の体積は $e^{nh}$ に収束するから、積は1に収束する。

ワイエルシュトラスの定理の証明

[0,1]区間の連続関数fは十分大きいnを使いn次の多項式で近似可能。

テイラー展開ではなくチェビシェフの不等式から従うことを証明できる。

モンテカルロ法

プログラミングや物理シミュレーションへの応用。

モンテカルロ法で求めた体積が確率 $1-\epsilon$ で正しいことは、マクミランの定理そのもの。なぜなら、エントロピーの定義 $- \sum p_i \ln p_i$

が最大になるのは一様分布のときで、 $\ln r$ 。このエントロピーに対応するマクミランの定理の事象確率は $e^{-r\ln r}=(\frac{1}{r})^{r}$

である。これは体積をr個のメッシュに分け、ランダムサンプリングをr回繰り返し、全てが異なるメッシュに入る確率。マクミランの定理は $r \to \infty$ でこの確率をもつ事象全体の確率が1になると保障している。つまり、モンテカルロ法は”必ず”正しい体積を算出する。

p37〜p52: 二項分布・正規分布・ポアソン分布

ドモアブル・ラプラスの定理

$X=\{0,1\} \ p(0)=p, p(1)=1-p$ の確率空間、例えばコイン投げをn回やると独立試行列の確率分布は二項分布になるのは既知(高校範囲)。ドモアブル・ラプラスの定理は、 $n \to \infty$ で二項分布は正規分布に有界な範囲で一様収束するという定理。

なぜ離散空間の話が実数上の正規分布になるのか？変数変換に工夫があり、 $z=\frac{np-k}{\sqrt{np(1-p)}}$

に座標変換しているからだ。そうするとkが1増えるたびに $dz=\frac{1}{\sqrt{np(1-p)}}$

だけ動くので $n \to \infty$ で連続変数にでき、積分形が得られる。

少数の法則

$n \to \infty$ と同時に $np=\lambda$ を保つようにする操作を熱力学的極限といい、二項分布の標本平均の分布はポアソン分布になる。これを少数の法則という。大数の法則とは関係がない。

大数の法則→正体はチェビシェフの不等式。ドモアブル・ラプラスの定理でもチェビシェフの不等式を利用しているから、二項分布を表す
少数の法則→熱力学的極限。ポアソン分布を表す

統計的推定

推定は、「実際のデータから元のpを推定する方法」である。2通りの導出がある。

本書で触れられている方法。ドモアブル・ラプラスの定理により正規分布を計算する。まずは「1-α両側点」f+, f-を求める。次にf+, f-の逆関数g+, g-を求める。最後に、g+とg-に表が出た回数( $\nu$ )を代入してνの推定範囲を求める。本文ではτ=ν/nとおき、p-τ空間の楕円幅からτの不等式をpの不等式に変換して、 $f_{+}^{-1}(\nu)\le p \le f_{-}^{-1}(\nu)$ のようになる。この式の形から、信頼限界を高めるほどpの推定が荒くなることが分かる。
「標本平均」と「不偏分散」から自由度n-1のスチューデントのt分布を計算し、その逆関数に「信頼限界」を代入してpの推定範囲を求める

ランダムウォーク(2次元/3次元)

2次元のランダムウォークは本質的に確率pで縦・1-pで横移動なので二項分布。

ということは、ドモアブル・ラプラスの定理を適用し正規分布になる。

$\lim_{n \to \infty}n P(C_n) = \displaystyle\frac{1}{2 \pi \sqrt{p(1-p)}}$

参考）3次元

$P(C_n) = \displaystyle\frac{c}{n^{\frac{3}{2}}}$

3次元ではランダムウォークは拡散しすぎて、遠くに行けない。

熱力学的極限

少数の法則は、熱力学で、一定体積の中の気体分子の個数を求めるのに使う。

p53〜p57: 独立性

事象の独立性

$P(A \cap B) = P(A) P(B)$

完全加法族の独立性

完全加法族の独立性は、任意の数の完全加法族Fに対して、それぞれの任意の元が

$P(C_1 \cap C_2)= P(C_1) P(C_2) \ \ C_1\in\mathcal{F}_1 \ C_2 \in \mathcal{F}_2$

しかし、F_1, F_2, F_3…のようにある時、任意の2つ組が独立でも、全体として独立であるとは限らないことに注意。(p55)

確率変数の独立性

この商空間を、確率変数に対して構築することで、確率変数η_iが与えられた時、その値による商空間Ω|η_iが得られる。

確率変数 $\eta$ の独立性は、ボレル集合族Bを用いる。確率変数は実数値をとり、実数上の完全加法族はボレル集合族だから。

$P(\eta_1^{-1}(\mathcal{B}_1) \cap \eta_2^{-1}(\mathcal{B}_2))= P(\eta_1^{-1}(\mathcal{B}_1)) P(\eta_2^{-1}(\mathcal{B}_2))$

このように、独立性には3段階存在する。

例：独立試行列

独立試行列は左の特殊な場合である。独立試行列については、i番目だけに「注目」することで商空間Ω|ξ_iを作り、1回の事象分の確率分布を再び得ることができる。

p58〜p66: ギャンブラー破産問題

ギャンブラーの破産問題は、ランダムウォークに2つの拡張を施したものである。

壁の導入(持ち金z=0(敗北) or a(勝利)でゲームは終わりとする)
勝利確率pの導入(p=1/2でランダムウォークとなる)

この条件の下で、「持ち金zから勝利確率Win(z)・敗北確率Lose(z)を予言すること」「ゲームの平均時間を予言すること」がギャンブラーの破産問題と呼ばれる。

1つめの条件は境界条件を指定することになり、解の一意性を保証する。

p=1/2のときはランダムウォークの定理から、「勝利確率は初めの持ち金に比例する」「ゲームの平均時間が最長となるのは持ち金が勝利条件の半分a/2のときで、 $a^2$ のオーダーとなる」ことが分かる。と言うことですね。但しこのときだけです。

勝利確率については、確率が偏っている場合は、各勝負が独立であることから全体確率公式が成り立ち、次の式を導ける。

$Win_{z}=p Win_{z+1} + q Win_{z-1}$

(微分方程式と同様、解の一意性より)この方程式に、特殊解を代入して解が求まる。

ゲームの平均時間についても、同様に次の式が求まり、特殊解から解が求まる。

$E_{z}=p E_{z+1} + q E_{z-1}$

ギャンブルの格言

借金返済・一攫千金を狙え！ギャンブル船エスポワール『賭博黙示録カイジ』1巻【ネタバレ注意】 | もう一度読みたいオススメ漫画まとめ

カイジがエスポワールで最初に1000万借りた判断は正しい。

生き延びる時間を長くできる。

p67〜p82: マルコフ連鎖・エルゴード定理・エントロピー

マルコフ連鎖

次のように初期分布 $\mu_{\omega 0}$ と確率行列P(k)を用いて定義される。

$p(\omega)= \mu_{\omega_0} \cdot p_{\omega_0 \omega_1}(1) \cdot p_{\omega_1 \omega_2}(2) \cdot\cdot\cdot p_{\omega_{n-1} \omega_n}(n)$

不変マルコフ連鎖のエルゴード定理

全ての成分が正である正行列に従うマルコフ連鎖を無限回行うと、必ず定常分布に収束します。これがエルゴード定理です。 $\displaystyle\lim_{n \to \infty} p_{ij}^{(n)} = \pi_j$ $\pi_i p^i_{j} \equiv\sum \pi_i p_{ij}= \pi_j$

※アインシュタインの縮約記法を使います。

証明には、次の補題を使います。 $d(\mu_1 P, \mu_2 P) \le (1-\alpha)d(\mu_1, \mu_2)$

行列Pをn回適用すると、次のように、分布間の距離は指数的に小さくなっていき、コーシー列は収束するので、極限の存在が証明できます。 $d(\mu_1 P^n, \mu_2 P^n) \le (1-\alpha)^n d(\mu_1, \mu_2)$

不変マルコフ連鎖のエントロピー

不変マルコフ連鎖とは以下の式で定義される確率分布です。 $p(\omega)= \mu_{\omega_0} \cdot p_{\omega_0 \omega_1} \cdot p_{\omega_1 \omega_2} \cdot\cdot\cdot p_{\omega_{n-1} \omega_n}$

マルコフ連鎖の無限回試行は、グラフ上のランダムウォークです。上記の確率は、各標本平均 $\nu_{x_i x_j}$ (状態x_iから状態x_jへの遷移が起こった回数)を用いて以下のようになります。 $p(\omega)= \mu_{\omega_0} \cdot \displaystyle\prod_{i \ne j} (p_{\omega_i \omega_j})^{\nu_{\omega_i \omega_j}}$

これは独立試行列ではありません。これは、2回目の確率は、1回目でどこに行ったか $(\omega_1)$ に依存していることからも直感的です。エントロピーは独立試行列ではないので $- \sum p(\omega) \ln p(\omega)$

ではありません。マクミランの定理はチェビシェフの不等式そのものなので、不変マルコフ連鎖でも使えます。マクミランの定理から、 $p(\omega) \sim e^{- nh}$

典型的な確率の対数を1/nしたものがエントロピーhの形となります。さらに展開します。 $\frac{1}{n}\ln p(\omega) = - \frac{1}{n} \ln \mu_i - \displaystyle\sum_{i \ne j} \frac{\nu_{ij}}{n}\ln p_{ij}$ $\to - \displaystyle\sum_{i \ne j} \pi_i p_{ij} \ln p_{ij}$

不変マルコフ連鎖のマクミランの定理

エントロピーは、定常分布の形だけによって決まるものではなく、遷移行列にも依存することがわかりました。このことは、定常分布が試行に対する確率分布ではない、ということを思い出させてくれます。マルコフ連鎖はあくまで、「遷移i→j上の確率分布」なのです。

よってマクミランの定理も遷移の集合上に成立して、いかなるn回遷移も等確率 $p(\omega) \sim e^{- nh} \sim e^{n \displaystyle\sum_{i} \pi_i h(* \vert i)} = e^{n E_X[h(* \vert i)]}$

で起こるようになります。h(*|i)は条件付確率分布に対応するエントロピーで、E_Xは状態空間の定常分布に関する期待値です。

通常、独立試行列でなくてはマクラミンの定理は成り立ちませんが、不変マルコフ連鎖には定常分布があることから、定常分布で期待値をとったエントロピーが有効になることが分かりました。

不変マルコフ連鎖

行列が変化しないマルコフ連鎖を不変マルコフ連鎖といい、これは独立試行列ではないが、ある意味では、独立試行列を拡張したものと考えられる。試行回数nの空間の確率分布と、試行回数n+1の空間の確率分布は独立になる。

正行列の無限積

どのような正行列も確率行列に変換することが出来ます(ブラウワーの不動点定理を使う、少し難しい)。確率行列に対するエルゴード定理から、無限積の成分をおおよそ推測できます。 $a_{ij}^{(n)} \sim \lambda^n e_i e^{*}_j$

これは、対角化して最大固有値を求めた場合と同じ結論です。

p83〜p90: ランダムウォーク

ポーヤの定理

この章の最終目的は、ポーヤの定理を証明することです。

単純ランダムウォークは $d = 1, 2$ 次元のとき再帰的であり、 $d \geq 3$ のとき非再帰的である。

f_iとp_iの2種類の再帰確率を考えます。

f_iは、時刻iで初めて原点に戻る確率
p_iは、時刻iに原点にいる確率

$\displaystyle\sum_{n=0}^\infty f_i = 1$

は「いつかは原点に必ず返ってくる」ことを意味するので、ランダムウォークが再帰的であると言います。定義よりf_iはp_iに含まれています。p_i内の事象は、初めて原点に戻った時刻で分類できます。

$p_i = f_i + f_{i-1} p_1 + f_{i-2} p_2 + \cdot\cdot\cdot + f_1 p_{i-1}$

p_iの意味は次のように分かります。fとpのべき級数(母関数)を考えます。

$F(z) = \displaystyle\sum_{n=0}^\infty f_i z^i$

$P(z) = \displaystyle\sum_{n=0}^\infty p_i z^i$

すると、pとfの関係式の両辺にz^iを掛けて足し合わせることにより

$P(z) = F(z) + P(z)F(z)$

$\therefore F(z) = 1 - \frac{1}{1 + P(z)}$

よって、 $if \displaystyle\lim_{z \to 1}P(z)=\infty \Rightarrow \displaystyle\sum_{n=0}^\infty f_i = F(1) = 1 - 0$

となりランダムウォークは再帰的となります。

アーベルの定理

F(z)はz=1で収束しますが、上記議論はP(z)の収束半径が1以上かつP(z)がz=1で連続じゃないとそもそもF(1)とP(1)の関係式自体が成り立ちません。P(1)が発散するので、級数の収束半径が1以上であることは無さそうです。しかし、P(z)の収束半径は下の関数(収束半径=1)で押さえられるので、実は1です。(収束半径上では全ての点で発散)

$1 + z + z^2 + z^3 + \cdot\cdot\cdot\cdot$

Z^d上のランダムウォーク

整数格子 $Z^d$ 上のランダムウォークで、空間一様、つまり $p(z_i, z_j) = p(z_j-z_i)$ のように移動量だけで遷移確率が決まるものについての章です。

ポーヤの定理の応用

つぶれない会社の株を持ち続ければ絶対損はしない。

非再帰的なランダムウォーク

1回の遷移での移動量の4次のモーメント(尖度)が有限ならば、ランダムウォークは非再帰的である。

$\sum {\vert z \vert}^4 p_z \leq \infty$

上記の式をチェビシェフの不等式と組み合わせ、

$p_n \leq \frac{C}{n^2}$

を証明することで、P(1)が有限であることを証明でき、上記の定理からランダムウォークが非再帰的であることが分かる。

なぜ有限と言えるかというと、この級数の和はπ^2/6だからです。これをバーゼル問題と言います。

また、d=3のポーヤの定理についても、

$p_n \leq \frac{C}{n^{1.5}}$

がドモアブル・ラプラスの定理で導けるので、P(1)が有限、つまりランダムウォークが非再帰的と分かる。

アーベルの定理の証明

P(z)がz=1で連続であることはアーベルの定理で証明できます。この証明は寺沢寛一「自然科学者のための数学概論」p136に載っています。

p91〜p96: 分枝過程

分枝過程

分枝過程は、マルコフ連鎖の例である。

1種類の粒子の分枝過程が最も単純である。この粒子は、時間が経過すると複数個(0個～無限個)に分裂する。それぞれの確率をp_0, p_1, p_2 …などとすると、それらの和は1であり、不変マルコフ連鎖となる。ある確率で、粒子が0個になる場合がある。時刻nで粒子が絶滅している確率をq_nとおくと、分枝過程の縮退とは次の式を満たすことである。 $\displaystyle\lim_{n \to \infty}q_n = 1$

つまり、時間が経過すると粒子が絶滅することである。p_1 < 1かつ $m = \displaystyle\sum_{k=0}^{\infty}kp_k \le 1$

を満たすことが、分枝過程の縮退の必要十分条件である。

べき級数

この証明にも、べき級数を使う。粒子が時刻nにs個である確率を $P\{\nu = s\}$ で表すとき、 $\phi^{(n)}(z) = \displaystyle\sum_{s=0}^{\infty}P\{\nu = s\}z^s$

すると、べき級数は次の式(時間発展の一意性)を満たす。 $\phi^{(n+1)}(z) = \phi^{(n)}(\phi(z)) = \phi(\phi^{(n)}(z))$

しかし一方、絶滅確率q_nは $P\{\nu = 0\}$ を満たすから

$q_n = \phi^{(n)}(0)$

であり、時間無限大の極限では、固定点となる。

$\phi(q_{\infty}) = \displaystyle\lim_{n \to \infty} \phi (\phi^{(n)}(q_0)) = \displaystyle\lim_{n \to \infty} \phi^{(n+1)}(q_0) = q_{\infty}$

ロルの定理を使って、m<=1のとき、この解は1しかあり得ないことが証明できる。つまり粒子の総数が高々現状維持となるような分枝過程ではq_nは1に収束し、粒子は絶滅する。

分枝過程の例

p97〜p102: 条件付き確率(測度論)

可測分割

確率変数ηが一定の領域で同値関係をいれ、確率空間を分割すると、商空間上の確率分布が得られる。以下の条件を満たすときだけ、この分割は可測という。

商空間上の確率が全体確率公式を満たす(発散しない、また非可測集合のように積分値のつじつまが合わなくなることがない)

$\displaystyle\int_{\Omega\vert\xi} P(A\vert C_{\xi})dP(C_{\xi})$

dP(C)は商空間上の測度(確率分布)に基づく積分である積分は普通のルベーグ積分で行う

直感的に理解をするのに便利な例は、次のように分割が無限である場合だと思う。例えば、ΩがR^2で、ξがx軸によって分割するという場合である。

dP(C_i)の測度は0である。
C_iは完全加法族をなし、無限個くっつけることができる。
だから、∫dP(C_i)>0のようにできる(ルベーグ積分)
なぜルベーグ積分が可能かというと、条件付き確率はC_iの上で定数だから。

ラドン・ニコディムの定理

条件付き確率は、商空間上の測度ですが、R^n上であればそれは割り算で計算できます。

$P(x\vert y) = \displaystyle\frac{P(x, y)}{P(y)}$

これをR^nより一般の空間に拡張するには、分割が可測である必要がありますが、逆に可測であれば、ラドン・ニコディムの定理により必ず条件付き期待値が存在することが保証されます。

$\displaystyle\int_{\Omega} \eta(\omega)dP = \displaystyle\int_{\Omega\vert\xi} E(\eta\vert F) dP$

上記積分で、分割の定義関数の期待値を取れば、条件付き期待値の値は条件付き確率となります。

p103〜p109: 特性関数・多次元正規分布

特性関数

多次元正規分布はN次元ベクトル空間上で中心ベクトルmの周りに分布する密度関数で、式の形は

$C \exp(-\frac{1}{2}(A(\vec{x}-\vec{m}) \cdot (\vec{x}-\vec{m})))$

です。ただし、Aが正定値の対称行列でないとダメという制限がかかります。

この定義の問題は、2次元正規分布を3次元空間で考えると、zについてはデルタ関数になり、3次元正規分布ではなくなってしまうことです。デルタ関数はGaussian列の極限なので、次元を増やしても定義が変わらない正規分布のほうが望ましいといえます。

確率密度関数とそのフーリエ変換である特性関数は1対1対応です。
だから、多次元正規分布を特性関数の逆フーリエ変換として定義するとより便利になります。

$\phi(\vec{\lambda}) = \exp(i \vec{\lambda} \cdot \vec{m} - \frac{1}{2}(B\vec{\lambda}) \cdot \vec{\lambda})$

ただし、Bは正定値ではなく、0も許可されます。Bの成分を全て0にとれば、逆フーリエ変換はデルタ関数になります。
この関数の逆フーリエ変換は、Bのランクに等しい次元に正規分布してます。

条件付き分布

多次元正規分布が低次元部分空間の正規分布になるもうひとつの場合は、条件付き分布です。
すなわち、変数の一部の値を与えたときの、残りの変数の分布です。逆共分散行列を次のように分解します：

$A = \left( \begin{array}{ccc} A_1 && B \\ B && A_2 \end{array} \right)$

A2の次元分のデータが観測されているとします。

$P(x_1, ... ,x_{n_1} \vert y_1, ... ,y_{n_2})$

このとき、少しずるいですが結果が正規分布になると仮定して計算すると、楽になります。具体的には、次のようにおきます。(Lはn2*n1行列)

$E_P(\vec{x}) = L\vec{y}$

このとき、

$P(x_1, ... ,x_{n_1} \vert y_1, ... ,y_{n_2})$

$=\sqrt{\displaystyle\frac{\det A}{2 \pi}}^n\exp\{-\displaystyle\frac{1}{2}[(A_1 \vec{x}, \vec{x}) + 2(B \vec{x}, \vec{y}) + (A_2 \vec{y}, \vec{y})]\}$ $=C(\vec{y}) \exp\{-\displaystyle\frac{1}{2}[(A_1(\vec{x}-L\vec{y}),(\vec{x}-L\vec{y}))]$ $-\displaystyle\frac{1}{2}[2(B\vec{x},\vec{y})+(A_1\vec{x},L\vec{y})+(A_1L\vec{y},\vec{x})]\}$

C(y)は、観測されているデータ(つまり定数)yだけを含む定数です。
これが正規分布になるためには、後半の項が0になればOKです。 $2(B\vec{x},\vec{y})+(A_1\vec{x},L\vec{y})+(A_1L\vec{y},\vec{x})=0$

A1が対称行列であることを使うと $2(B\vec{x},\vec{y})=-2(A_1\vec{x},L\vec{y})=-2(L^TA_1\vec{x},\vec{y})$

この方程式は解けて、 $B=-L^TA_1 \Leftrightarrow L=-(A_1)^{-1}B^T$

です。よって、元の行列から期待値Lyが計算でき、条件付き確率が正規分布であることが分かりました。

何が凄いかというと、正規分布の期待値がA1だけでなくBとyを含んでいるところです。つまり、残りの変数の正規分布の中心位置は観測データyに依存する(+yから計算できる)のです。
つまり、いくつか変数を観測すれば残りの未知の量xの見当がつくことになります(P(x|y))。

ちなみに、逆共分散行列はA1になります。

エルミート多項式

多次元正規分布を含む式 $\exp{\displaystyle\frac{1}{2}(A\vec{x},\vec{x})}\displaystyle\frac{\partial^k}{\partial x_1^{k_1}...\partial x_n^{k_n}}\exp\{{-\displaystyle\frac{1}{2}(A\vec{x},\vec{x})}\}$

をエルミート多項式といいます。

ちょっと複雑ですが、この式とk-1次以下の任意の多項式の積の期待値はゼロになります。部分積分で簡単に証明できます。

確率論的は、多次元正規分布の元でゼロになる統計量はエルミート多項式と何かの積の形をしていることが多いという解釈になります。

量子力学の調和振動子

量子力学では物質粒子は点ではなく正規分布になります(波束ともいう)。振動している物質粒子(調和振動子)は点でなくエルミート多項式に正規分布を掛けたものになります。このことを「物質は波でもある」とかいいます。 $\displaystyle\frac{\partial^k}{\partial x_1^{k_1}...\partial x_n^{k_n}}\exp\{{-\displaystyle\frac{1}{2}(A\vec{x},\vec{x})}\}$

※量子力学では振動している物質粒子とは次の式(シュレーディンガー方程式)の解のことです。
※Wikipediaにはのってないですが、ググれば解き方は見つかります。漸化式みたいなやつです。 $i\hbar\displaystyle\frac{\partial}{\partial t}\phi(x,t)=\left[-\displaystyle\frac{\hbar^2}{2m}\frac{\partial^2}{\partial x^2}+\frac{1}{2}kx^2\right]\phi(x,t)$

エルミート多項式と関数空間

関数空間とは、関数の集合が作るベクトル空間のことです。

k次のエルミート多項式にk-1次以下の多項式をかけて期待値をとると0になることを直交性といいます。期待値をとるとは2つの関数の積に正規分布をかけて積分することですが、これを使って関数空間に内積を定義する(入れる)ことが出来ます。この関数空間をプレ-ヒルベルト空間と呼びます。直交性を使って、プレ-ヒルベルト空間の正規直交基底を作ることが出来ます。

この関数空間の要素となる関数は、この正規直交基底でベクトル表示(u1,u2,…,u∞)したときに、 $\displaystyle\sum_{k=0}^\infty \vert u_k \vert ^2 \leq \infty$

を満たす全ての関数です。多次元正規分布に対して期待値を持つ全ての統計量(関数)が、このようなベクトルで表示可能です。これがエルミート多項式展開です。

$f(x) = \displaystyle\sum_{k=0}^\infty u_k H_k(x)$

理論的には綺麗ですが、実際のエルミート多項式は高次であればあるほどラージxでの増え方が幾何級数的に上昇するため、グラフをコンピューターで描画するのは難しい関数です。∞遠点で発散する関数ですが、正規分布をかけて積分するという内積の特徴から、正規直交基底となるために、任意の関数のエルミート多項式展開はラージxで非常に見た目上の誤差が大きくなります。いわば、エルミート多項式展開は正規分布の平均ベクトルの信頼区間における展開と割り切って使う必要があります。

正則分布

確率分布を多次元正規分布で近似することがあります。これをLaplace法といいます。3章にも出てきました。

最大値をただ1点x*でとり、その点でのヘッセ行列(以下をij要素とする行列)の固有値が全て正である時、正則な分布と言います。(正規分布の定義にマイナスがついているので、正則なときx*は極大値になります。すなわち、gradP=0かつ正則ならその点が極大値になります。) $\displaystyle\frac{\partial^2 P}{\partial x_i \partial x_j}(x^{*})$

これは2回微分なので、多次元正規分布を2回微分したものは、2次のエルミート多項式と多次元正規分布との積になるはずです。

1次元のときは

$e^{\frac{x^2}{2}}\frac{\partial^2}{\partial x^2}e^{-\frac{x^2}{2}}$

$=e^{\frac{x^2}{2}}\frac{\partial}{\partial x}\{(-x)e^{-\frac{x^2}{2}}\}$ $=e^{\frac{x^2}{2}}(x^2-1)e^{-\frac{x^2}{2}}$ $=x^2-1$

2次元のときは3種類あり、

$e^{\frac{1}{2}(ax^2 + 2b xy + cy^2)}\frac{\partial^2}{\partial x^2}e^{-\frac{1}{2}(ax^2 + 2b xy + cy^2)}$

$=e^{\frac{1}{2}(ax^2 + 2b xy + cy^2)}\frac{\partial}{\partial x}\{(-ax - by)e^{-\frac{1}{2}(ax^2 + 2b xy + cy^2)}\}$

$=e^{\frac{1}{2}(ax^2 + 2b xy + cy^2)}\{(-ax - by)^2 + (-a)\}e^{-\frac{1}{2}(ax^2 + 2b xy + cy^2)}$

$=a^2x^2 + 2abxy + b^2 y^2 - a$

と、

$e^{\frac{1}{2}(ax^2 + 2b xy + cy^2)}\frac{\partial^2}{\partial x \partial y}e^{-\frac{1}{2}(ax^2 + 2b xy + cy^2)}$

$=e^{\frac{1}{2}(ax^2 + 2b xy + cy^2)}\frac{\partial}{\partial y}\{(-ax - by)e^{-\frac{1}{2}(ax^2 + 2b xy + cy^2)}\}$

$=e^{\frac{1}{2}(ax^2 + 2b xy + cy^2)}\{(-ax - by)(-bx - cy) + (-b)\}e^{-\frac{1}{2}(ax^2 + 2b xy + cy^2)}$

$=ab x^2 + (b^2+ac)xy + bc y^2 - b$

と、

$e^{\frac{1}{2}(ax^2 + 2b xy + cy^2)}\frac{\partial^2}{\partial y^2}e^{-\frac{1}{2}(ax^2 + 2b xy + cy^2)}$

$=b^2 x^2 + 2bcxy + c^2 y^2 - c$

です。ここでa,b,cは逆共分散行列の成分です。これらはa=c=1, b=0のとき、2次元におけるエルミート行列です。

$x^2-1 \\ xy \\ y^2-1$

だから、これらに1をかけて(つまりそのまま)期待値をとればゼロになりますし、任意のx,yの1次式をかけて期待値をとればゼロになります。つまり、期待値ゼロの2次元3次式の3つのバリエーションが得られました。
一般のa,b,cのときも、任意のx,yの1次式をかけて期待値をとればゼロになります(部分積分すればわかります)。a,b,cの意味を知るには、次の直交変換を求めればよいです。

$A = \left( \begin{array}{ccc} a && b \\ b && c \end{array} \right)= S^TDS$

ヘッセ行列に戻ると、各成分の期待値がゼロであることから、多次元正規分布ではヘッセ行列の全空間にわたる積分はゼロであることが分かります。 $\displaystyle\int_{\mathbb{R}^n}\displaystyle\frac{\partial^2 P}{\partial x_i \partial x_j}(\vec{x})dx^n=0$

同様に、勾配に対しても積分はゼロになります。 $\displaystyle\int_{\mathbb{R}^n}\displaystyle\frac{\partial P}{\partial x_i}(\vec{x})dx^n=0$

こちらは奇関数なので積分がゼロになるのは直感的ですが、上記のように部分積分を使ってゼロになると理解することもできます。

ヘッセ行列の行列式、つまり全ての固有値の積をヘッシアンといいます。多次元正規分布の拡張された定義から、正規分布で近似可能な場合は全ての固有値が0以上の場合です。 $\lvert\displaystyle\frac{\partial^2 P}{\partial x_i \partial x_j}(\vec{x})\lvert$

ヘッシアンは、ヘッセ行列の要素のn次式になります。ヘッセ行列の要素はn次元n次エルミート多項式ですが、ヘッシアンはn^2次多項式(しかもエルミートではない)となります。
例えば上記の例では、xxyy(2次元2^2次多項式)に比例する項等があり、これは積分値がゼロになりません。

p110〜p118: パーコレーション

臨界確率

パーコレーションとは、2次元もしくは3次元の各点2状態{1,0}の格子において、y=-Lからy=+Lまでの連結パスが生じる現象のことである。各点が1になる確率はp,0になる確率は1-p=qである。

例えば抵抗が異なる金属Aと金属Bの合金の場合、Aがパーコレートしたら全体の抵抗もR_Aのみに支配される。合金でなく片方が酸化物の不導体であれば、電流が通るか否か、という問題になる。

金属原子はとても小さいので、実際の金属塊ではL→∞の極限をとると考える。

証明は難しいが、各点が1になる確率をpとしたとき、p_c<pのとき確率1でパーコレーションが起こる。p_cを臨界確率という。

この時、上から下および右から左のパーコレーションが確率1で起こること(定理10.1)の証明がこの章のテーマである。証明は長く、マイルストーンを意識して読むことが重要である。

とっつきづらい問題が、見事にメスを入れられてわかりやすくなっていく。

1.シリンダーの定義

この問題も独立試行で、格子の個数(2L+1)^2回{1,0}からの選択を行う。この全配位をωで表す。ω全体の空間Ωの位数は2^{(2L+1)^2}である。シリンダーを以下のように定義する。

「ある連結集合Qが与えられた時、Q上の全ての点が1になる配位ωの集合」

このままシリンダーを使うと、他のシリンダーとくっついてしまうので、Qについての和がとれない。なので、シリンダーを縮小し、「Qが最大連結成分であるもの」に制限する。

一般にこうした連結成分は集合{Q_i}をなすが、Q_iとQ_jが分離している限り、Q_i内とQ_j内の事象は独立となる(4.分散計算で用いる)

この縮小シリンダーを表す定義関数をχ_Qとする。

2.Qについての和をnについての和にする

「ありえる全てのQについての和」をとると、点(x_1,L)がQの内部にある確率が表現できる。

$p^{int}(x_1)=\displaystyle\sum_{Q}\displaystyle\sum_{\omega}p(\omega)\chi_Q(\omega)$

このQについての和はわかりにくすぎるので、2つの補題を経て、nの式で上から押さえることができる。

$p^{int}(x_1)=\displaystyle\sum_{Q}\displaystyle\sum_{\omega}p(\omega)\chi_Q(\omega) \leq \displaystyle\sum_{n=1}^{\infty}(c_1 q)^{c_2 \vert Q \vert} \equiv d(p)$

この級数はq→0のとき0になる。(全ての点が1になるので、当然(x_1,L)も1であり、Qの内部にはない)

nについての和になることで、x_1が端点であろうと中間点であろうと同じ形になり扱いやすくなる。

3.y=L上の内部点の数の期待値を求める

点(x_1,L)のx_1を-L〜+Lまで動かすことで、何個の点が内部点になっているかわかる。期待値はωにわたってとる(Ω全体)。

$E\xi(\omega)\leq(2L+1)d(p)$

4.y=L上の内部点の数の分散を求める

ここが証明の１番の難所である。

$Var\xi(\omega)\leq(2L+1)d(p)$

5.チェビシェフの不等式

3.4.の結果をチェビシェフの不等式に代入して、

$P(\xi - E\xi \geq (2L+1)d(p)) \geq P(\xi - (2L+1)d(p) \geq (2L+1)d(p)) = P(\xi \geq 2(2L+1)d(p)) \geq \displaystyle\frac{Var\xi}{(2L+1)^2d(p)^2}$

なので、この余事象は、

$P(\xi - E\xi \leq (2L+1)d(p)) \leq 1 - \displaystyle\frac{Var\xi}{(2L+1)^2d(p)^2} \leq 1 - \displaystyle\frac{(2L+1)d(p)}{(2L+1)^2d(p)^2} = 1 - \displaystyle\frac{1}{(2L+1)d(p)} \to 1$

であることが示された。

よって、L→∞において、確率1でξ=上端辺上の内部点の数は小さく、半分以上の点が外部点であることがわかる。

6.Q_iが全て小さいことを証明する

同様にして、全てのQ_iが確率1で外周の長さが2(2L+1)以内であることが証明できる。

すると、「通せんぼ」できるだけの大きさを持つ連結成分Q_iは一つも存在しないということになるので、外部点のみを通るパスが存在し、パーコレーションが確率1で起こることがわかる、という流れである。

臨界現象のイメージ

クリエイティブ・コモンズより。

さらなるパーコレーション

パーコレーション研究に魅せられた学者も多い。

p119〜p129: ルベーグ積分

確率分布・期待値

未だ、路半ば

不甲斐ないことに、130ページ目以降の内容を理解するのに困難が生じています。死ぬ前には絶対読破したい・・・

この後何が書いてあるのか

大数の法則

弱収束

ヘリーの定理

特性関数(測度論)

独立確率変数の和(測度論)

大偏差

統計学(測度論)

カイ二乗検定(測度論)

信頼区間

t検定

クラーメル・ラオの不等式

maximum likelihood