思うだけで学ばない日記 2.0

思うだけで学ばない日記から移転しました☆!よろしくお願いします。

PVの調整が勝利の鍵だった(?)

一昨日書いた2式は良く考えたら評価関数調整のゴール条件としては強すぐるorz

仮にその2式を逸脱する局面のペアが(ことによったら多数)存在したとしても、それがPVを揺るがせさえしなければ問題ない。PVが不変なら探索結果も不変に保たれるからだ。
一方、(例えば)PVとは重ならない部分木の末端の局面A,Bが共通の親局面を持つとき、A,Bの評価値を交換してもPVは変化しない。これはA,Bが属するクラスによらず言える。
つまり、同一PVの下で、昨日の式a, b.を満たす場合と満たさない場合が存在するわけで、例の2式は調整完了の必要条件ではない。

てゆーか、探索結果を不変に保つには何もPV全体が不変である必要は無く、根の部分だけで良い。つまり上と同様の論理がPVの根の部分より下のどの階層についても言えて、A,B二つの評価値を交換しつつ探索結果を不変に保ちつつPVを改変することも可能なはずで、結局2010-10-16に書いた話に戻ってしまうorz、、(そこでも書いたように、そのような改変がゲームの他の手番の探索に影響させないことも原理的には可能なハズ。一例として、固定深さの探索であれば、探索木の葉の局面の集合が手番ごとに素か、さもなくば共通の親を持つので。*1

と思うのだけど、自分の言うことをそれほど信用しているわけでもないので、とりあえずPVはおいそれと変えられない(変えたら他の手番の探索にも影響する)という何らかの原理が存在するとしよう。

すると評価関数調整のゴールはより正確には次の通りになる。
・PV決定に関わる大小比較に現れる局面評価値のペアの全てが昨日の式a., b.を満足すること

つまり、PVに絡まない(大多数の)評価値同士の大小関係はどうでもよい。この見地にたてば、むしろ今のPVが本当に至強のPVなのか?が関心の中心となる。

というわけで、今日わ、PVだけ見て調整というより自己対戦して負ければ適当に選んだ手番におけるPV先端局面の評価値を下げ、勝てば上げる、という単純な試行錯誤の反復、ただそれだけでも、(宇宙の終わりまでかかるかも知れないとはいえ)そのうちいずれ至強に到達できそうな予感を得た*2

*1:もちろん現実には評価関数を比較的少数の評価因子の結合で記述する限り、特定手番の評価値集合を他の手番のそれとは独立に変えることは難しいが。

*2:現実の評価関数を使う限り、評価因子の種類で決まる上限で強さは打ち止めだろうけど。