思うだけで学ばない日記 2.0

思うだけで学ばない日記から移転しました☆!よろしくお願いします。

Tree Strap Search読んだ

3日間フルタイムで取り組んでようやく読み終えたorz

語るべきことはあまり多くない希ガス、、

RootStrapやTD-Leafより対戦者の強さに鈍感であるとする根拠が不明確

これについては後で書く

Figure 2のグラフの続きを見せて欲しい

TreeStrapがレーティングが頭打ちまで行ってるように見えるのに対してRootStrapやTD-Leafはまだ伸び中であるように見える。TreeStrapは学習時間の短縮に寄与しているだけで本質的な強さの改善になってない疑いがあるていうかまず間違いなくそう。仮に(評価因子が適切で)学習がガチに最適政策の獲得まで逝ったとすると、もはや主計路は動かないから(さもなくば矛盾)、その状況に近づくにつれ、個々の探索で主計路周辺の複数ノードについて状態更新をやるか、時系列に展開してRootノードについての状態更新だけで済ませるかは(探索1回を時間単位とみなして)処理をパラレルにやるかシリアルにやるかの違いでしかなくなってくる。
つまり、評価因子を固定したなら、時間さえかければおそらくTreeStrapとRootStrapは同じ能力に収束するだろうがそれ以上のことは起きないだろう

そもそも探索木の中に互いに独立なノードなど何一つ無いのだから、RootStrapに対してTreeStrapで初めて探索木から汲み取れるような情報が本当に有るとは思えない。

TreeStrap(AlphaBeta)は本当に安全に収束するのか?

Figure 2の終わりの乱高下がかなり不安、

まとめ?

というーわけで、マルコフ過程がこの世のほとんどありとあらゆる複雑さを状態の個数と引き替えに説明してしまうごとく、マルコフ過程ベースの強化学習手法は「時間さえかければ」あるいは「記憶さえふんだんに使えれば」それらはみな同じ強さになる(のでわ?)
差が付くとすれば評価因子の選び方と、それに起因して決まる評価関数の精度の上限
のはず。