思うだけで学ばない日記 2.0

思うだけで学ばない日記から移転しました☆!よろしくお願いします。

正当性はどこから来るのか

しばらく前のエントリで「正当な半順序」とか言い出したとき、正当性は多分十分に強い相手が繰り出す最善手からやってくるのだとぼんやりと思っていたわけだが*1
この説は実験で反証された──相手の手をカナーリ正確に予測できるようになった*2というのにてんーで*3弱いままなのだるorz
これわちょっと考えれば明らかなことであって、第一に、自分が局面xにおいて手Aを指した後の相手の手Bの予測は局面xを根とする探索木の真部分木のトレーニングにしかなってないし*4
第二に、手Aが自己にとって不利な手だったとして、それを指し重ねるうちに自己にとってどんどん不利な局面になるから、相手にとって攻め手の選択肢がむしろ減る結果、相手の手Bを予想しやすくなるというのもあるっぽい*5
つまり予測の学習が進んだとしても自己の勝率向上に向けた改善圧力が全く働かないという、

やはり評価関数の正当性は(他者ではなく)評価関数自身の内からやってくると考えるしかないという考えに至ったなう
つまり、相手の最善手が予想できるというのは良い評価関数たらしめる原因ではなくて結果である以下略
この立場にたてば、最善手を説明する理論上必要十分な評価値が-∞、0、+∞の3値であるにもかかわらず実用に供される評価関数が3値よりはるかに大きい多値であるという気になって気になって仕方ないギャップを筋の通った説明で埋めることが可能になる、

*1:最大被害を最小化するというmin-max原理上、局面毎の最大被害を習得する機会さえあれば学習はおkと思えたわけだが、

*2:ただし中盤以降に限る

*3:つか極端に

*4:手Bの予想の成否は手A自体の良し悪しとは直接関係がない。というのは手Aの事後なので、

*5:KKPもKPPも含まないちょう単純な評価関数にもかかわらず予測が成立するからくりが多分これ。