思うだけで学ばない日記 2.0

思うだけで学ばない日記から移転しました☆!よろしくお願いします。

山無し意味無しオチ無し(本日もGMA0BN平常運転ちう)

昨日書いた評価関数構成法と称するものは、ノードaからゲーム終局まで連鎖する真の最善手の系列一式を要求するが、そんなものがわかっているならわざわざ評価関数を構成してmin-max探索を行うまでもないorz

フーリエ変換云々は、保険としてのモンテカルロ法将棋に話をつなげようとして論理を見失ってしまったのでむりやりオチをつけようとしたらぶっ飛んでしまったもの 。n_*1

ただ、評価関数構成法と称するものの方は、将棋の固定深さの探索において、必ず精度∞の評価関数が存在し、かつ評価値を整数で表現し得る、ということの構成的証明になっている点は微妙に意義があると思うorz(汗;;*2

さて、真の最善手の系列一式が確定的に与えられないなら統計的に探るしかない。いったいどいうランダムサンプリングでどういう統計量を探ればいいのだろうか。

局面がゲーム終局まで実際に行き着けば勝敗は確定するわけだが、その近所がどうなっているのか、ゲームのルールからただちに明白なことが言えるわけではない。終局へのうまい到達方法はおろか、接近方法すらほとんどわからない。

実際に探索してみればそれがはっきりするが、いまは計算量的にそれができないから統計的手法を模索しているのであって、完全な探索はせずに探る、これがここでの大前提である。

また、将棋の場合サイクル手順とかもバカスカあって終局までの手数が大きくばらつくから、囲碁のようにゲーム木の上を終局に到達するまでランダムウォーク、というのは現実的でない。

とすれば、終局を参照するという考えはあきらめざるを得ず、するとゲーム木の局所的な分岐構造と、ごく一般的な常識ぐらいしか手近には判断材料が残らないのでこの線で考えてみる。

*1:評価因子が局面を加重和でもって順序集合と一対一に対応付けられるものなら何でも良くなるというのは多分確かだけど、真の最善手がわからない上に局面の総数が以下略

*2:表現があちこち変だったり間違ってたり(ヲイ
するのは善意で解釈するとして。