Tree Strap Search読んだ
3日間フルタイムで取り組んでようやく読み終えたorz
語るべきことはあまり多くない希ガス、、
RootStrapやTD-Leafより対戦者の強さに鈍感であるとする根拠が不明確
これについては後で書く
Figure 2のグラフの続きを見せて欲しい
TreeStrapがレーティングが頭打ちまで行ってるように見えるのに対してRootStrapやTD-Leafはまだ伸び中であるように見える。TreeStrapは学習時間の短縮に寄与しているだけで本質的な強さの改善になってない疑いがあるていうかまず間違いなくそう。仮に(評価因子が適切で)学習がガチに最適政策の獲得まで逝ったとすると、もはや主計路は動かないから(さもなくば矛盾)、その状況に近づくにつれ、個々の探索で主計路周辺の複数ノードについて状態更新をやるか、時系列に展開してRootノードについての状態更新だけで済ませるかは(探索1回を時間単位とみなして)処理をパラレルにやるかシリアルにやるかの違いでしかなくなってくる。
つまり、評価因子を固定したなら、時間さえかければおそらくTreeStrapとRootStrapは同じ能力に収束するだろうがそれ以上のことは起きないだろう
そもそも探索木の中に互いに独立なノードなど何一つ無いのだから、RootStrapに対してTreeStrapで初めて探索木から汲み取れるような情報が本当に有るとは思えない。
TreeStrap(AlphaBeta)は本当に安全に収束するのか?
Figure 2の終わりの乱高下がかなり不安、