読んだ: アルファ碁解体新書流し読み

AlphaGoを構成するブレイクスルーは何か?

まずは「1手先を読む」タスクに寄与したもの
  • CNNを使ったこと(教師あり学習でランダム比140倍の性能)
  • バリューネットワークという、世界初の囲碁の評価関数の導出

しかしながら、人間の棋譜を教師とした教師あり学習では限界がきてしまった。ここからが強化学習で、AlphaGoは人間ではなく自分のコピーと対戦を繰り返して学習していくことになる。132ページ以降。

  • 方策関数の強化学習
  • DQN – CNNを使って特徴抽出を行い、それに対し勝敗情報を使って価値関数を強化学習
次に「n手先を読む」タスクに寄与したもの
  • 原始モンテカルロ(プレイアウト法)
  • モンテカルロ探索(プレイアウト法に、UCB1バイアス項を付加したもの)

まとめ

これら3つ(CNN/PolicyGradient/UCB1)の技術の組み合わせがAlphaGoを強くした。