思うだけで学ばない日記 2.0

思うだけで学ばない日記から移転しました☆!よろしくお願いします。

楽しい楽観合議

昨日のエントリの最後の発言にはちょっと補足が要る。神のごとき評価関数が実現されれば合議は死ぬかもしれないが、それはそういった評価関数の表現方法として合議以上に簡便なやり方があった場合に限られる。

さて今ネットでは楽観合議>悲観合議という噂でもちきりなので、今日わそれが何故なのか考えて見ゆる
ならびにこれわGMA0BNが今後も正常動作(!?)を続けるための儀式も兼ねり

探索範囲と評価関数の理想の関係

神のごとき評価関数が局面の集合に正当な全順序を与えるものだとは述べた。ではそうでない評価関数は何かというと、単にその否定であって、部分的にしか正当でない全順序もしくは正当だが半順序しか与えない評価関数に他ならないだる。
局面の集合に正当な全順序を与える評価関数を使えば、探索範囲はほとんどどうとっても良い。なにしろ正当な全順序であるからして、どんな2局面の比較結果も正当なので、1手しか探索すまいが1万手ぐらい完全探索しようが出てくる最善手は変わりようがない。
そうでなければそうでない。すわなち、正当であっても半順序であれば順序不定のギャップをまたぐか、全順序であっても不当な順序が付与された領域内での順序比較が行われれば比較結果は容易に誤り、それが運の悪い箇所で起きれば最善手まで誤ることわ論をまたない。このようにして、探索範囲と評価関数の質にはベストなマッチングというより、やってはならない組み合わせが存在する。例えば深さNまでの探索用にしか調整していない評価関数をNより大の深さの探索に供してみればワカル。これわ簡単な例だが、大規模探索においてはどこでどのような不当な比較が生じるか生じるか予測し難い。これは探索木の根における次手を、遠く離れたN手先の葉局面の比較で決めること、およびNが大きくなるにつれ(潜在的)比較対象となる葉局面の数が指数関数的に増えることから想像がつく。ただ幸いなのは、正しい読み筋とは(手数距離的な意味で)遠く隔たった場所で不当な比較が行われようとも、多くの場合は最善手への影響を免れるということだ。ボナメソで調整した等の比較的良質の評価関数においては後者の効果が勝るらしい。「深く読むほど強くなる」系の実験結果はそう解釈するのが正しく、実験結果を無条件には敷衍するわけにはいかない。

なんで現実の評価関数は多値になるのか

一昨日述べたように、二人零和有限確定完全情報ゲームには「勝ち」「負け」「引き分け」の3種類の局面しかないから、たとえ神のごとき評価関数といえどもその表現は3値で十分だる。だが実際に使われる評価関数は今日日16 bitをオーバーせん勢いだ
どういうことだってばよ?!
これは、神のごとき評価関数への接近が仮説反証ベースで行われることに起因する。すわなち、調整途上の評価関数(これは将棋クラスの複雑なゲームにおいては、すわなち今人類が手にする全ての評価関数と同義だが)はA≧Bらしい、C≧Dらしい、B≧Dのようだがよくわかんね…といった同時並行的に検証中な多数の仮説の集まりであり、学習の進行の内部状態が多値となって現れているのだる
調整を究極まで推し進める際、大小の圧縮(つまりA≧B≧Cが正当ならそれをA=B=Cと置いてしまう)に注意を払い続けない限り、これは多値化が進行する一方であることを意味する。すわなち、評価関数はよく練るほど多値になる傾向が通常は成立するのだ

楽観合議はなぜ(悲観合議より)強いのか

さて今日の本題。
二人零和有限確定完全情報ゲームを戦う際我々が注目するのは自己の利益であることに注意しよう。すわなち、複素平面でいえば、右半平面にしか興味がない。ここに上の「評価関数はよく練るほど多値になる」法則を組み合わせると、とあるスケール(評価関数の機能を順序の付与として把握した諸兄には自明だろう)で並べたとき、練られ度の昇順で並ぶ。故に楽観合議なら局面ごとの不得手がカバーされて勝率向上手段として成立し、悲観合議ならその反対となって成立しない。

合議はなぜイイのか

神のごとき評価関数に接近するにあたり困難が2つばかり指摘できる。

  1. それをとことん精度良く近似するには、評価因子の個数が青天井かもしれない。
  2. たくさんの評価因子を投入しても、1回の探索の中で重要なのは一握りであり無駄が多い*1

合議こそこれらを一挙に解決するバラ色の手段であることは明らかすぐる

むすび

俺たちの戦いはこれからだ!
GMA0BN先生の次回作にご期待下さい!!!!!!

とわいえ、上に述べたことがらは合議を読み解く論としてはTree Strap Searchで真のPVをズバリ言い当てんがごとき偉大すぎる逆問題アプローチであるからして、解釈の一意性は全く保証いたしかねる。

おまけ

話は飛ぶが、この間空を飛ぶ夢を見て、FXの必勝法を思いついたんだ以下略

*1:計算を打ち切れるならまだいいが、PVの決定に寄与しない要素まで延々評価計算することになったら悲劇だ。そんな無駄をやるぐらいなら、得手不得手がはっきりしたpondersを相補的に束ねた方が良い。