思うだけで学ばない日記 2.0

思うだけで学ばない日記から移転しました☆!よろしくお願いします。

最尤法の拡張(もしくは後退)

ここは漏れの日記帳だ

将棋の局面は(膨大ではあるが)有限個なので、どういう切り口で確率を調べるにしても離散確率分布で記述可能な量しか現れないハズ。
ここでは将棋の局面や指し手やそのバックグラウンドにしか興味がないので、以下離散確率分布のみ考える。

で、最尤法を扱いやすいように加工する。PRMLを解説する他所様のblogをチラ見したのだが*1、もっと原始的なところから話を始めて一見同値とは思えない範囲にまで応用が利くように理解を深められたらいいなあ、

いま分布も何もよくわからない母集団から(無作為かどうかは置くとして)一定のやり方に基づくサンプリングでn個の標本{ x_n }を得たとする。
このとき、得られることが非常にまれな(珍しい)要素がn個得られたのだ、と考えるより、ありふれた要素がn個得られたのだと考える方が尤もらしい説明だる。
つまり、同時確率
 Pr( (X_1=x_1)∧(X_2=x_2)∧(X_2=x_2)∧...∧(X_n=x_n) )・・・(1)
より有意に大きい生起確率を持つ別の標本系列{ x_n' }が存在すると考える正当な理由はなく、むしろ{ x_n }が代表的な系列(の一つ)であり、ゆえにn回のサンプリングにおける生起確率の上限を極めており、だから実際に観測されたのだという説明が尤もらしい。ここでX_k (k=1..n)はk回目のサンプリングで得られる値を表す変数*2

この論理(?)は系列{ x_n }が観測される前提となったあらゆるものに敷衍できる。なぜなら、B(θ)⇒A(θ)という関係にある命題(関数)A(θ),B(θ)を考えたとき、A(θ)が真になることがありふれた事象なら、B(θ)が真になることもありふれた事象であらねばならない。当然だる☆

いまB(θ)が{ x_n }が観測されるための前提だとすると、式(1)はB(θ)が真であることの事後確率に等しい。すなわち
 式(1) = Pr( (X_1=x_1)∧(X_2=x_2)∧(X_2=x_2)∧...∧(X_n=x_n) | B(θ) )・・・(2)

さて一般的な最尤推定ではここで天下り

  • n回のサンプリングが独立試行とみなせる
    (前に行ったサンプリングが、後で行うサンプリングに影響しない)

という仮定を導入し、すると次式が成り立つから:
 式(2) = P( X_1=x_1 | B(θ) )*P( X_2=x_2 | B(θ) )*P( X_3=x_3 | B(θ) )*...*P( X_n=x_n | B(θ) ) ・・・(3)
この右辺の対数を取ったもの(対数尤度)について(解析的に極小点を求めるか、さもなくば)最急降下法で鞍点(この場合必ず極大の点でもある)を求めて前提B(θ)のθを点推定する、という手順なわけだが、

しかし、B(θ)⇒A(θ)という関係の下でA(θ)が真になりがちならB(θ)も真になりがちであらねばならないという上に書いた事実により、独立試行の仮定を外した最尤法を考えることができる。ならばサンプリングは無作為である必要もない。探索ブートストラッピングにおいて個々の対局結果から情報を搾り取るためには無論そちらの最尤法のが望ましい

ゲーム木がmin-max法の局面評価値の空間内に適切な道路マップを提供するから、強化学習な手法を用いて状態マシンを右往左往させる必要性はほぼ無くなる

がその表式はきわめてメドイので多分一生使わない
ここまでは単なる準備体操(マテ

*1:「学んだら負け」を標榜するGMA0BN的においてはほぼ全ての学習ソースがネットでの又聞きとか拾い読みである。

*2:確率空間からそういう概念が導かれると思うから多分妥当。正直そこまでやってないし知らんが。