2010-05-01から1ヶ月間の記事一覧
(ry
昨日の混乱は2つの探索S0とSの使い分けにあったとも言える。そもそも探索S0(ゲーム木全体を根から葉まで読み切るmin-max探索;いわば神の目)の評価関数が所与とする想定は現実的でないから、Sに統一しよう。すると話がうんと単純化して、概略として次の学習…
「精度∞の評価関数構成法」の評価値操作で満たされるべき条件は約こんな感じ。 条件1:ゲーム木の根r0から葉まで読み切るmin-max探索S0の主経路上のORノードnから固定深さまでのmin-max探索Sを行うとき、探索Sの末端ノードのうち、nの子(ANDノード)dから到…
(というエントリにするつもりでしたが予定を変更してお送りしますorz) 日曜あたりから主経路主経路言い出したが、これはprincipal variationの訳語(らしい)。 おそらく1回の探索における探索木の中の読み筋のことだと思う。 その前のエントリで言い出し…
もちろん非探索ベースの学習手法(次手からいきなり最適政策の獲得に動くような)の時間効率と、探索ベースの学習手法(探索を挟んで問題を簡単にした上で学習にかける(またはDPに持ち込む))との時間効率の違いまで同一視するつもりはなくて、速くなった…
3日間フルタイムで取り組んでようやく読み終えたorz語るべきことはあまり多くない希ガス、、 RootStrapやTD-Leafより対戦者の強さに鈍感であるとする根拠が不明確 これについては後で書く Figure 2のグラフの続きを見せて欲しい TreeStrapがレーティングが頭…
現実逃避したくなることがいっぱいだから現実逃避してみた。 ここの超訳。 無許可でしかも途中までで訳したより先は全く読んでないというおまけつき。ゲーム木探索結果による探索ブートストラップ手法 Joel Veness, David Silver, Wiliam Uther, Alan Blair(…
(ry
独立して設計・製造された探索プログラムが行う探索において、評価値への誤差の乗り方はそれぞれ異なる傾向を有するハズ。それでも最善手が一致したなら、それは評価関数の誤差に対して感度が小さい手だったから、というのがありそうな説明であり、だとすれ…
相変わらず固定深さまでの探索で考える。 探索のルートノードはORノード(自己手番)である。探索の末端ノードもORノードに揃えたとする。 前々回のエントリで固定深さまでのmin-max探索において無限に高精度な評価関数の存在を示せたから、この線からまず入…
といってもごく単純なアイデアだる昨日は、自己手番のノードa(ORノード)の子の1つa'選んで評価値をかさ上げするには、その子から到達する探索の末端ノード全てについて、評価値を等しくかさ上げするのだと言った。そうすればa'の評価値は間違いなくかさ上…
昨日書いた評価関数構成法と称するものは、ノードaからゲーム終局まで連鎖する真の最善手の系列一式を要求するが、そんなものがわかっているならわざわざ評価関数を構成してmin-max探索を行うまでもないorzフーリエ変換云々は、保険としてのモンテカルロ法将…
この連休中において、評価関数を10倍速にすることに成功したから複数コア動員で置換表の助け無しに50万NPSぐらい逝ける気がする目処がたった それはそうと、今日は、2chの某スレで煽ったり罵ったり怒鳴り合ったりしてるうちに気づいたことなどを書く こいつ…
省略しちゃ、イカン