不偏推定量とクラメール・ラオの不等式

標本平均の秘密

標本平均とは、データ(d_1, d_2, …, d_n)に対し、和をnで割ったものです。私たちはあまりに標本平均に慣れすぎているので、それを使うのが正しいことを疑うことはないのですが、数学的には標本平均は、データの線型結合の特殊ケース – 係数に1/nを代入した場合 – に過ぎません。

任意の線型結合は期待値の線形性を満たすので、標本平均を特別扱いする理由はなさそうです。しかし、クラメール・ラオの不等式は標本平均のある意味での最適性を証明してくれます。

以下の本に簡潔な証明がありましたので解説します。

確率分布母数θの推定問題

データサイエンスでは、n個の観測データd_1,d_2,…d_nが手元にあり、何らかの予測を行わなければならない状況が多いと思います。例えば、独立試行列として上の時系列があり、d_(n+1)を予測する、といった場合です。

このようなタイプの様々なの問題が、次のような統一的な問題に帰着されます。古典統計学ではこのような問題を、「推定」と呼びます。

「n個の観測データd_1,d_2,…d_nが手元にあり、このデータは何らかの確率分布から生成されたと分かっています。しかも、その確率分布はパラメータθを1つだけ持っていることまで分かっています。観測データからθを推定したいという問題を考えます。θを近似する関数として、データのどのような関数f(d_1,d_2,…d_n)を計算すれば良いのでしょうか?fの形を求めてください。」

あらゆる確率分布に対して成り立つ?

θによってパラメトライズ可能な確率分布は無数にあります。まずは具体的に考えてみましょう。それから、複雑なものを考えていきましょう。

例えば、分散固定の正規分布です。分散が1で平均値だけがθで表されるような正規分布は、次式で表されます。

P(x \vert \theta) = \displaystyle \frac{1}{\sqrt{2 \pi}} \exp(- \frac{(x-\theta)^2}{2})

この正規分布は、指数型分布族と呼ばれる確率分布の一種です。指数型分布族の定義は次式です。

P(x \vert \theta) = \exp(\eta(\theta) T(x) - A(\theta) + B(x))

(ぱっと見係数が無くなってますが、-0.5*log2πとしてB(x)などに入っていると考えます。)

これが正規分布を特殊例として含むことは容易に(2次式を展開すれば)わかります。一般の場合はもっと複雑ですが、指数型分布族の場合ですら、ηなどの不定関数の自由度を含み、fに影響を与えてしまうことがわかります。

だから、どの確率分布に対しても必ず有効なfは無いのです。それは、確率分布の形が複雑すぎて、θがどのように反映されているかが全くわからないからです。

(※このようなデータの関数形(推定量)が不明な場合にも必ず使える理論も確かにあります。例えばベイズ推定です。ベイズ推定はどのような場合でも有効な推定方法です。)

救世主、不偏性

しかし、不偏性という条件さえ満たされれば、かなりfを絞り込むことができます。

まず、推定量(データの関数)Tn(d1, d2, …)が与えられたときに、明らかにダメなものがあることに注意しましょう。例えば、Tn=0(ゼロ)という恒等関数を考えてみてください。θ=0でない限りは確実にハズレですし、データとの整合性が全くないですし、何となくダメそうです。ということは逆に、よさそうな関数もあるのではないでしょうか。より具体的には、あらゆるデータの関数に対して、次の条件を満たすかチェックするということです。

E_\theta\{T_n(d_1, d_2, ... ,d_n)\}=\theta
V_\theta\{T_n(d_1, d_2, ... ,d_n)\}=\displaystyle\min_{\forall f} V_\theta\{f(d_1, d_2, ... ,d_n)\}

前者の条件が不偏性であり、この条件が無ければ、Tnでθを推定できるかどうかは運しだいになってしまいます。 後者の条件はなんと呼ぶか分かりませんが、どんなデータが来ても確実にθを推定できるという条件です。 そしてθが平均値μであるとき(正規分布やポアソン分布などだと直観的)、T_nは標本平均になります。

証明と式変形の解説

log likelihood(対数尤度)をθで微分すると次のようになります。

\displaystyle\frac{\partial}{\partial\theta}\log(P(D\vert \theta))=\displaystyle\frac{\dot{P}(D \vert \theta)}{P(D\vert \theta)}

ということは、不偏性の式

\displaystyle\int T_n(D)P(D\vert \theta) dx = \theta

の両辺をθで微分すると・・・

\displaystyle\int T_n(D)\dot{P}(D\vert \theta) dx = 1

※ここで、微積分の交換可能性が必要

1 = \displaystyle\int T_n(D)\dot{P}(D\vert \theta) dx = \displaystyle\int T_n(D)\frac{\dot{P}(D\vert \theta)}{P(D\vert \theta)}P(D\vert \theta) dx
= E_\theta\{T_n \displaystyle\frac{\partial}{\partial\theta}\log(P(D\vert \theta))\}
Cov(T_n, \displaystyle\frac{\partial}{\partial\theta}\log(P(D\vert \theta)))
= E_\theta\{T_n \displaystyle\frac{\partial}{\partial\theta}\log(P(D\vert \theta))\} - E_\theta(T_n)E_\theta(\displaystyle\frac{\partial}{\partial\theta}\log(P(D\vert \theta)))

よって、もし

E_\theta(\displaystyle\frac{\partial}{\partial\theta}\log(P(D\vert \theta)))=0

が満たされるなら、これと、相関係数が1以下であることから、共分散は次を満たします。

1 = Cov(T_n, \displaystyle\frac{\partial}{\partial\theta}\log(P(D\vert \theta)))^2
\le V(\displaystyle\frac{\partial}{\partial\theta}\log(P(D\vert \theta)))V(T_n) \equiv I_n(\theta)V(T_n)

このIがフィッシャー情報量です。フィッシャー情報量は、直感的にはカルバック・ライブラ情報量のθ微分だと思えばよいでしょう。この等号が成り立つのは

\displaystyle\frac{\partial}{\partial\theta}\log(P(D\vert \theta)) = a + bT_n

のように線型関係が成り立つときだけです。このときが分散の最小値で、次のようになります。

V(T_n)=\{I_n(\theta)\}^{-1}=\{nI(\theta)\}^{-1}=\displaystyle\min_{\forall f} V_\theta\{f(d_1, d_2, ... ,d_n)\}

この最小値がクラメール・ラオの下限です。

線型関係が成り立つとはどういうことでしょうか?例えばPが正規分布、パラメータθが平均μのとき、logPはμの二次式なので、θで微分するとμの1次式ですよね。だから、正規分布のとき分散を最小にするのは標本平均です。 以上が、標本平均が最適な平均の推定量である理由です。

ここまでくれば、各分布に対して平均をθで表す公式がありますので、それを使うだけです。

良くこんなこと思いつくなあ、と感動しました。

まとめ

  • 不偏性があればその関数を使って平均値が推定可能である。
  • 平均値の推定に最適なのは、標本平均である。
  • 仮定した分布から、平均値μをθの関数μ=g(θ)として表す。
  • すると、標本平均をその逆関数に入れることで、g^-1(Tn)=θとなりθが推定できる。
  • 標本平均が最適なのは、どのようなデータが来ても、分散が最小だからである。

「不偏推定量とクラメール・ラオの不等式」への2件のフィードバック

  1. ピンバック: 統計検定チートシート(1級・2級) | The Big Computing

  2. ピンバック: データサイエンス人気記事 - The Big Computing

コメントは受け付けていません。