正当性はどこから来るのか
しばらく前のエントリで「正当な半順序」とか言い出したとき、正当性は多分十分に強い相手が繰り出す最善手からやってくるのだとぼんやりと思っていたわけだが*1
この説は実験で反証された──相手の手をカナーリ正確に予測できるようになった*2というのにてんーで*3弱いままなのだるorz
これわちょっと考えれば明らかなことであって、第一に、自分が局面xにおいて手Aを指した後の相手の手Bの予測は局面xを根とする探索木の真部分木のトレーニングにしかなってないし*4
第二に、手Aが自己にとって不利な手だったとして、それを指し重ねるうちに自己にとってどんどん不利な局面になるから、相手にとって攻め手の選択肢がむしろ減る結果、相手の手Bを予想しやすくなるというのもあるっぽい*5。
つまり予測の学習が進んだとしても自己の勝率向上に向けた改善圧力が全く働かないという、
やはり評価関数の正当性は(他者ではなく)評価関数自身の内からやってくると考えるしかないという考えに至ったなう
つまり、相手の最善手が予想できるというのは良い評価関数たらしめる原因ではなくて結果である以下略
この立場にたてば、最善手を説明する理論上必要十分な評価値が-∞、0、+∞の3値であるにもかかわらず実用に供される評価関数が3値よりはるかに大きい多値であるという気になって気になって仕方ないギャップを筋の通った説明で埋めることが可能になる、