強化学習とは

強化学習の目的はポリシーの学習であり、機械学習のように予測を目的としていない。

数学的には、単に不動点定理を適用しているに過ぎない。

そこで、やや抽象的ではあるが、強化学習の1iterationの手続きは、下のように3段階の写像であると表現することにした。

ポリシー更新のアルゴリズム

\mu^0 \to T_{\mu^0} \to J_{\mu^0} \to \mu^1

段階的に解説すると:

\mu^0 \to T_{\mu^0}

ポリシーμから、ベルマン演算子Tを求める。

T_{\mu^0} \to J_{\mu^0}

ベルマン方程式の不動点Jを求める。

J_{\mu^0} \to \mu^1

最適性を満たす新しいポリシーμを求める。