おまけ：なぜR250の棋譜を集めてボナメソにかければR300ぐらいになるのか？

AI

われわれが観測するR250の指し筋は良手と悪手が混合したものの平均だが、T(x)の分解能を高めると悪手がフィルタされて学習結果の平均レベルが上がるため、と考えれば定性的に辻褄が合う（ﾏﾃとりとめもなく終わる

2010-06-12

神様なら考える必要がない

AI

なんで突如ロジスティック回帰やニューラルネットワークの話を始めたのかというと、前回エントリに書いた内容でそこそこ効率よくて調整フリーな無制限の探索ブートストラッピングが可能になったわけだが*1、別の場所にしわ寄せが来てて悩み中のため、これが…

2010-06-12

ロジスティック回帰がニューラルネットワークのパクリである件について

AI

式を見れば一目瞭然だる。単一ニューロンi (i=1,2,...,m)の表式は、重みベクトルw_i=(w_i_1,w_i_2,w_i_3,...,w_i_n, b_i)(b_iは定数)、特徴ベクトルx=(x_1,x_2,x_3,...,x_n, 1)、^Tで転置を表すとして、出力y_i(x) = φ(w_i・x^T) ここでφ()はシグモイド関…

2010-06-12

ロジスティック回帰

AI

ロジスティック関数を使った使った2クラス識別を考える。例えばn個の標本系列{ x_n }の内訳がM:Nの割合でクラスC_1とクラスC_2だったとしてそうなった隠れた前提がB(θ)だったとすると、{ x_n }が観測される確率は Pr( { x_n }が生起 | B(θ) ) = Pr( (C1がM…

2010-06-12

最尤法の拡張（もしくは後退）

AI

ここは漏れの日記帳だ将棋の局面は（膨大ではあるが）有限個なので、どういう切り口で確率を調べるにしても離散確率分布で記述可能な量しか現れないハズ。ここでは将棋の局面や指し手やそのバックグラウンドにしか興味がないので、以下離散確率分布のみ考…

2010-05-29

というわけで5月末までの完全決着は無理だがブートストラッピングの理屈だけは合意に至った（神様との

AI

(ry

2010-05-29

【決定論的】評価関数の確率収束でないブートストラップ方法【多分確実】

AI

昨日の混乱は2つの探索S0とSの使い分けにあったとも言える。そもそも探索S0(ゲーム木全体を根から葉まで読み切るmin-max探索；いわば神の目)の評価関数が所与とする想定は現実的でないから、Sに統一しよう。すると話がうんと単純化して、概略として次の学習…

2010-05-28

きた！定理きた！これで勝つる！

AI

（というエントリにするつもりでしたが予定を変更してお送りしますorz）日曜あたりから主経路主経路言い出したが、これはprincipal variationの訳語（らしい）。おそらく1回の探索における探索木の中の読み筋のことだと思う。その前のエントリで言い出し…

2010-05-25

補足

AI

もちろん非探索ベースの学習手法（次手からいきなり最適政策の獲得に動くような）の時間効率と、探索ベースの学習手法（探索を挟んで問題を簡単にした上で学習にかける（またはDPに持ち込む））との時間効率の違いまで同一視するつもりはなくて、速くなった…

2010-05-25

Tree Strap Search読んだ

AI

3日間フルタイムで取り組んでようやく読み終えたorz語るべきことはあまり多くない希ｶﾞｽ、、 RootStrapやTD-Leafより対戦者の強さに鈍感であるとする根拠が不明確これについては後で書く Figure 2のグラフの続きを見せて欲しい TreeStrapがレーティングが頭…

2010-05-22

超訳！Tree Strap Search

AI

現実逃避したくなることがいっぱいだから現実逃避してみた。ここの超訳。無許可でしかも途中までで訳したより先は全く読んでないというおまけつき。ゲーム木探索結果による探索ブートストラップ手法 Joel Veness, David Silver, Wiliam Uther, Alan Blair(…

2010-05-20

5月末までに完成させましょう

AI

(ry

2010-05-20

合○アルゴリズムの件について

AI

独立して設計・製造された探索プログラムが行う探索において、評価値への誤差の乗り方はそれぞれ異なる傾向を有するハズ。それでも最善手が一致したなら、それは評価関数の誤差に対して感度が小さい手だったから、というのがありそうな説明であり、だとすれ…

2010-05-20

最善手の誤差感度と共謀数

AI

相変わらず固定深さまでの探索で考える。探索のルートノードはORノード（自己手番）である。探索の末端ノードもORノードに揃えたとする。前々回のエントリで固定深さまでのmin-max探索において無限に高精度な評価関数の存在を示せたから、この線からまず入…

2010-05-07

真打ち！モンテカルロ将棋

AI

といってもごく単純なアイデアだる昨日は、自己手番のノードa（ORノード）の子の1つa'選んで評価値をかさ上げするには、その子から到達する探索の末端ノード全てについて、評価値を等しくかさ上げするのだと言った。そうすればa'の評価値は間違いなくかさ上…

2010-05-07

山無し意味無しオチ無し（本日もGMA0BN平常運転ちう）

AI

昨日書いた評価関数構成法と称するものは、ノードaからゲーム終局まで連鎖する真の最善手の系列一式を要求するが、そんなものがわかっているならわざわざ評価関数を構成してmin-max探索を行うまでもないorzフーリエ変換云々は、保険としてのモンテカルロ法将…

2010-05-06

「評価関数の精度」再考

AI

この連休中において、評価関数を10倍速にすることに成功したから複数コア動員で置換表の助け無しに50万NPSぐらい逝ける気がする目処がたったそれはそうと、今日は、2chの某スレで煽ったり罵ったり怒鳴り合ったりしてるうちに気づいたことなどを書くこいつ…

2010-05-06

「!!!!」≠「!」

AI

省略しちゃ、ｲｶﾝ

2010-04-06

はあ、、

AI

まあ生きてりゃもう一回ぐらいやれるさ…

2010-04-01

解決しますた！

AI

某ｽﾚより生駒(成ってない駒)は移動元が敵陣の場合、禁手で無い限り移動先を問わず「成」も「不成」も選択できる。よってリンク先の局面の場合９一飛は「？？飛成」で16手、「？？飛不成」で16手、５三角は「？？角成」で1２手、「？？角不成」で12手、 …

2010-04-01

FAQ Ver.2

AI

Q1. 早く動くブツ見せてよ A1. It's a showmanship.Q2. 間に合うの？ A2. Trust me.

2010-04-01

ついで

AI

2月の頭ごろに公開デバッグしたTelexクラスにはさらに深刻なバグがあった氏にたい|||｡n_ ↓Receive()の中をこんなかんじみたくしてnb==0になるのを避けないと、待ってる間回り続けてCPU時間を消費するという、、orz // 読み出す DWORD nbMax = bufSz - wp; //…