強化学習の目的はポリシーの学習であり、機械学習のように予測を目的としていない。
数学的には、単に不動点定理を適用しているに過ぎない。
そこで、やや抽象的ではあるが、強化学習の1iterationの手続きは、下のように3段階の写像であると表現することにした。
Table of Contents
ポリシー更新のアルゴリズム
段階的に解説すると:
ポリシーμから、ベルマン演算子Tを求める。
ベルマン方程式の不動点Jを求める。
最適性を満たす新しいポリシーμを求める。
強化学習の目的はポリシーの学習であり、機械学習のように予測を目的としていない。
数学的には、単に不動点定理を適用しているに過ぎない。
そこで、やや抽象的ではあるが、強化学習の1iterationの手続きは、下のように3段階の写像であると表現することにした。
Table of Contents
ポリシーμから、ベルマン演算子Tを求める。
ベルマン方程式の不動点Jを求める。
最適性を満たす新しいポリシーμを求める。