思うだけで学ばない日記 2.0

思うだけで学ばない日記から移転しました☆!よろしくお願いします。

掃き溜めのチラ裏

ttp://web.econ.keio.ac.jp/staff/ito/pdf99/me99game.pdfに

注意1. 戦略は、戦術や手(move, gambit) とは区別される。将棋やチェスを例にとれば、毎回の
駒の動きがmove であり、ゲームの開始から終了までの各プレーヤーのmove の列(sequence) が戦
略とよばれるものである。

と書いてあるわけだが
ちょっ、それおかしくね常識的に考えて
自己のmoveのsequenceは、どう考えても自己の戦略に相手の手がかけ合わさって生じる「結果」であって自己の戦略そのものではないよねー
いま仮にプレイヤー片側のmoveのsequenceをそのプレイヤーの戦略と定義すると、例えば相手に角を全部取られた状態で自己が角道を開けるmoveは実現確率0なわけだが*1
しかし相手が角を取るかどうかは相手のsequenceの一部であって、仮定よりそれはすわなち相手の戦略、故に自己の戦略と相手の戦略を分離した議論ができなくなって、純戦略i,jの利得p_i_jからなる行列Pという概念が妥当性を失う*2

すわなち、

  • プレイヤーXの戦略=プレイヤーXのmoveのsequence

という定式化はまったくもって誤りで、

  • プレイヤーXの戦略=プレイヤーXが採択した評価関数

が正しい*3
すると、利得行列Pの列数や行数は、評価関数の集合の要素数に等しいということになる
ここで「アーハン評価関数の集合=係数ベクトルが張る空間のことね」と納得してしまうのは甘い
これは真実は
 局 面 の 集 合 を 数 値 ( 評 価 値 ) に 移 す 写 像 全 部
が張る空間のことのはずだる
幸い最善手を選ぶという目的からすれば、どんな局面を与えても同じ最善手を導き出すという意味での評価関数の同値類は無限にあるがそれはあまり救いにならなくて、評価関数の集合は局面の集合の無限乗の要素数を持つことを前にしてはただただ焼け石に水だから本当は幸せなんて存在しない
将棋の鞍点を馬鹿正直に定義通り求めようとすれば、ゲーム展開を全部読み切ることの無限乗の計算量が要る*4

コンピュータ将棋の方法論界隈でゲーム理論武装した人を見かけないのはこういう事情だと思われる
コンピュータ━で最善手を導くなどという邪悪な企てにはゲーム理論はそれほど便利でないようにできていることを皆さんわかっていらっしゃるのだと思う

が、今や王道楽土建設のためにはあえてジャングルに足を踏み入れるべきなのだ*5

というようなことを今日わふとオモタ、

*1:持駒を打てないチェスとかだとまさにその時点以降に「角道を開ける」を含むsequence自体が全部実現確率0になってしまうわけだが

*2:嘘だと思うなら三つ山くずしで先手の「1の山総取り、2の山残り取り、3の山残り取り」というsequence iと、後手の「1の山残り取り、2の山総取り、3の山残り取り」というsequence jの利得p_i_jを定義づけていただきたい。もしそれを反則の得点(仮に-W)とするなら、-Wはあらゆる利得の最小値となるべきだから、鞍点の定義が甚だ困難なことになりはすまいか?

*3:いや知らんけど

*4:いや知らんけど☆2
いやまあ無限乗は言い過ぎかもしれんけど、有限にしても指数が組み合わせ爆発的な数に上ることは間違いない

*5:いや知らんけど☆3