強化学習がダメな10の理由
- 自明。
- 明らか。
- 事実。
- 学習効率が棋譜からの学習に多分敵わない。少なくとも勝敗(つまり完全ゲーム木の末端の状態だけ)を報酬とするやり方は、学習途中のコンピュータープレイヤー自身が実際に終局までプレイしなければ学習が進まないから学習サンプルの生成からして逐次的なプレイの速度に律速される
一方、(例えば)棋譜からの学習だと、十分に強いプレイヤー同士で合法で勝負が付いた棋譜なら何だって学習サンプル足りえるから、1時間もかければ10万局オーダーの棋譜を集められる*1圧倒的ジャマイカ、 - 少なくとも勝敗(つまり完全ゲーム木の末端の状態だけ)を報酬とするやり方は、結局のところ学習部に完全ゲーム木を効率よく見込みをつけてトラバースさせましょうという話の範囲を出ず、戦略:=探索×評価関数、というスキームの採択でせっかく生じた採掘可能な秩序が無駄に以下略
一方もし仮に第三者同士の対局結果から中間ノードの勝率を定めて報酬としだすぐらいなら直接棋譜から学習せいや、と個人的に思う - 確率収束って、いつになったら収束が終わったことになるんだ、、
- 以下同文×3
というわけで、(強化学習とも棋譜からの学習とも銘打たれていない)学習の進度がJ/Kで表わされるというのはかなり興味深い
エントロピーさながらっすね、
、という本日のポエム
*1:いや集めたこと無いから知らんけど、