思うだけで学ばない日記 2.0

思うだけで学ばない日記から移転しました☆!よろしくお願いします。

黒歴史の金字塔

水平線効果とアバウトな学習の不当な局面評価がコンボで襲ってくる/(>o<)\

一般に、現局面からN手先に位置する自己手番の局面において、駒xを1手動かしたときの局面評価値の増加幅Δの大きい手があった場合、COMはN手先でその1手を実行するつもりの手を選択しがちになるわけだが…
しかしながら、一方、大きいΔはN手先から現局面(探索の根)に上がる過程でβカットされがちになる

よって探索が深ければΔの不正確さはさほど大過ない…かと思いきや…!

将棋の場合、持駒をいきなり敵陣の好きなところに打てるから、COMにしてみれば「少なくともN手先で駒xを打てるのだから、そこまでの不利益はΔまでなら回収できる」という判断がありがちとなり、本当は回収の見込みのない不利益路線を是として駒xだけでなくその他諸々も失っていく、という事象が目下進行中

駒得ベースの評価関数でも起きるが、王将周辺の利き状況をテキトーに評価に加えると上記弊害がめちゃくちゃ増幅されてしまうorz
たとえば、N手先の探索の先端で持ち駒の銀を相手の王の鼻先に打ち、かつN手先までの自駒の損失を大幅に無視するつもりの手を選択してしまう等。
これはつまり、銀を相手の王の鼻先に打つという手単体の評価値の増加幅Δが、途中で失う駒の価値の合計を上回る場合、COMにとって合理的判断に見えてしまうということである。

そして、駒打ちは、打つ側が位置とタイミングの選択権をほとんど一方的に有する。言い換えると、打とうとする側に打つのを思いとどませる即効薬が打たれる側に存在しないから*1、探索の深さNが多少あってもほとんどβカットされずに(不当な)Δが根まで上がってしまうという…

なんちゅー嫌なゲームなんだ、、

追記

「(不当な)Δが根まで上がってしまうという」とは、Δがそのまま評価値となるというわけではなくて
 評価値=Δ+Σ(損失駒の価値) (≒ 0)
であるような評価が最善手の評価として成立してしまうの意味death、

*1:それは、ここで考えているような探索の深さNをはるかに超える手数の手順で準備される必要がある。