AlphaGoを構成するブレイクスルーは何か?
まずは「1手先を読む」タスクに寄与したもの
- CNNを使ったこと(教師あり学習でランダム比140倍の性能)
- バリューネットワークという、世界初の囲碁の評価関数の導出
しかしながら、人間の棋譜を教師とした教師あり学習では限界がきてしまった。ここからが強化学習で、AlphaGoは人間ではなく自分のコピーと対戦を繰り返して学習していくことになる。132ページ以降。
- 方策関数の強化学習
- DQN – CNNを使って特徴抽出を行い、それに対し勝敗情報を使って価値関数を強化学習
次に「n手先を読む」タスクに寄与したもの
- 原始モンテカルロ(プレイアウト法)
- モンテカルロ探索(プレイアウト法に、UCB1バイアス項を付加したもの)
まとめ
これら3つ(CNN/PolicyGradient/UCB1)の技術の組み合わせがAlphaGoを強くした。