思うだけで学ばない日記 2.0

思うだけで学ばない日記から移転しました☆!よろしくお願いします。

AI

おまけ:なぜR250の棋譜を集めてボナメソにかければR300ぐらいになるのか?

AI

われわれが観測するR250の指し筋は良手と悪手が混合したものの平均だが、T(x)の分解能を高めると悪手がフィルタされて学習結果の平均レベルが上がるため、と考えれば定性的に辻褄が合う(マテとりとめもなく終わる

神様なら考える必要がない

AI

なんで突如ロジスティック回帰やニューラルネットワークの話を始めたのかというと、前回エントリに書いた内容でそこそこ効率よくて調整フリーな無制限の探索ブートストラッピングが可能になったわけだが*1、別の場所にしわ寄せが来てて悩み中のため、 これが…

ロジスティック回帰がニューラルネットワークのパクリである件について

AI

式を見れば一目瞭然だる。 単一ニューロンi (i=1,2,...,m)の表式は、重みベクトルw_i=(w_i_1,w_i_2,w_i_3,...,w_i_n, b_i)(b_iは定数)、特徴ベクトルx=(x_1,x_2,x_3,...,x_n, 1)、^Tで転置を表すとして、 出力y_i(x) = φ(w_i・x^T) ここでφ()はシグモイド関…

ロジスティック回帰

AI

ロジスティック関数を使った使った2クラス識別を考える。 例えばn個の標本系列{ x_n }の内訳がM:Nの割合でクラスC_1とクラスC_2だったとしてそうなった隠れた前提がB(θ)だったとすると、{ x_n }が観測される確率は Pr( { x_n }が生起 | B(θ) ) = Pr( (C1がM…

最尤法の拡張(もしくは後退)

AI

ここは漏れの日記帳だ 将棋の局面は(膨大ではあるが)有限個なので、どういう切り口で確率を調べるにしても離散確率分布で記述可能な量しか現れないハズ。 ここでは将棋の局面や指し手やそのバックグラウンドにしか興味がないので、以下離散確率分布のみ考…

というわけで5月末までの完全決着は無理だがブートストラッピングの理屈だけは合意に至った(神様との

AI

(ry

【決定論的】評価関数の確率収束でないブートストラップ方法【多分確実】

AI

昨日の混乱は2つの探索S0とSの使い分けにあったとも言える。そもそも探索S0(ゲーム木全体を根から葉まで読み切るmin-max探索;いわば神の目)の評価関数が所与とする想定は現実的でないから、Sに統一しよう。すると話がうんと単純化して、概略として次の学習…

きた!定理きた!これで勝つる!

AI

(というエントリにするつもりでしたが予定を変更してお送りしますorz) 日曜あたりから主経路主経路言い出したが、これはprincipal variationの訳語(らしい)。 おそらく1回の探索における探索木の中の読み筋のことだと思う。 その前のエントリで言い出し…

補足

AI

もちろん非探索ベースの学習手法(次手からいきなり最適政策の獲得に動くような)の時間効率と、探索ベースの学習手法(探索を挟んで問題を簡単にした上で学習にかける(またはDPに持ち込む))との時間効率の違いまで同一視するつもりはなくて、速くなった…

Tree Strap Search読んだ

AI

3日間フルタイムで取り組んでようやく読み終えたorz語るべきことはあまり多くない希ガス、、 RootStrapやTD-Leafより対戦者の強さに鈍感であるとする根拠が不明確 これについては後で書く Figure 2のグラフの続きを見せて欲しい TreeStrapがレーティングが頭…

超訳!Tree Strap Search

AI

現実逃避したくなることがいっぱいだから現実逃避してみた。 ここの超訳。 無許可でしかも途中までで訳したより先は全く読んでないというおまけつき。ゲーム木探索結果による探索ブートストラップ手法 Joel Veness, David Silver, Wiliam Uther, Alan Blair(…

5月末までに完成させましょう

AI

(ry

合○アルゴリズムの件について

AI

独立して設計・製造された探索プログラムが行う探索において、評価値への誤差の乗り方はそれぞれ異なる傾向を有するハズ。それでも最善手が一致したなら、それは評価関数の誤差に対して感度が小さい手だったから、というのがありそうな説明であり、だとすれ…

最善手の誤差感度と共謀数

AI

相変わらず固定深さまでの探索で考える。 探索のルートノードはORノード(自己手番)である。探索の末端ノードもORノードに揃えたとする。 前々回のエントリで固定深さまでのmin-max探索において無限に高精度な評価関数の存在を示せたから、この線からまず入…

真打ち!モンテカルロ将棋

AI

といってもごく単純なアイデアだる昨日は、自己手番のノードa(ORノード)の子の1つa'選んで評価値をかさ上げするには、その子から到達する探索の末端ノード全てについて、評価値を等しくかさ上げするのだと言った。そうすればa'の評価値は間違いなくかさ上…

山無し意味無しオチ無し(本日もGMA0BN平常運転ちう)

AI

昨日書いた評価関数構成法と称するものは、ノードaからゲーム終局まで連鎖する真の最善手の系列一式を要求するが、そんなものがわかっているならわざわざ評価関数を構成してmin-max探索を行うまでもないorzフーリエ変換云々は、保険としてのモンテカルロ法将…

「評価関数の精度」再考

AI

この連休中において、評価関数を10倍速にすることに成功したから複数コア動員で置換表の助け無しに50万NPSぐらい逝ける気がする目処がたった それはそうと、今日は、2chの某スレで煽ったり罵ったり怒鳴り合ったりしてるうちに気づいたことなどを書く こいつ…

「!!!!」≠「!」

AI

省略しちゃ、イカン

はあ、、

AI

まあ 生きてりゃもう一回ぐらいやれるさ…

解決しますた!

AI

某スレより 生駒(成ってない駒)は移動元が敵陣の場合、 禁手で無い限り移動先を問わず「成」も「不成」も選択できる。 よってリンク先の局面の場合 9一飛は「??飛成」で16手、「??飛不成」で16手、 5三角は「??角成」で12手、「??角不成」で12手、 …

FAQ Ver.2

AI

Q1. 早く動くブツ見せてよ A1. It's a showmanship.Q2. 間に合うの? A2. Trust me.

ついで

AI

2月の頭ごろに公開デバッグしたTelexクラスにはさらに深刻なバグがあった氏にたい|||。n_ ↓Receive()の中をこんなかんじみたくしてnb==0になるのを避けないと、待ってる間回り続けてCPU時間を消費するという、、orz // 読み出す DWORD nbMax = bufSz - wp; //…

最多合法手局面の合法手の数をうちのプログラムで数えたら565手だった…!

AI

最多合法手局面の合法手の数が593通りだというのでうちのプログラムで数えたら565手だったorz ただ、これはたまたまであってバグではない木がするけど、、ひょっとして、プログラムよりもGMA0BN自体の深刻なバグの兆候…? 【内訳】 持駒_桂_(63-4)x1=59 持駒…

FAQ

AI

A. 進捗は? Q. も(ry

妄言は一時の恥(多分

AI

およそ1年にわたりカテゴリー:AIで妄言を書きまくってきたわけですが、その集大成を文書にしました!→ここ文書も完成したことだし、あとは実(ry■2010/03/15 00:1200:38追記 文書の2.4.項後半を修正してv.3v.4としました。(方式の有効性について説明を追加。)

旅に出ますタノム、

AI

当blogはフィクションであり 実在の個人・団体・コンピュータ将棋プログラム・コンピュータ将棋プロジェクトなどとは 一切関係ふじこlp

α値もβ値も一般にスカラーでわない

AI

x座標やy座標の値が座標系のとり方依存だからスカラーとは呼ばれないのと同様に、α値もβ値も一般にスカラーとは呼べないどういうことだキバヤシ?つまり、αβ法のトラバースする様子を考えれば、あるノードNにおけるα値とβ値が確定するためには、Nを根とする…

Hellow, clueru warld

AI

今日わ、「評価関数の精度」とか、そこらへんについて考えてみたい。個人的には 二人零和有限確定完全情報ゲームに神の一手が存在する という事実と df-pn探索 は完璧に整合する*1のに対し、min-max法(含αβ法)の立ち位置はなんか微妙─────みたいな、確かに「…

NetBurstアーキテクチャァー崩壊の序曲は始まりの時点ですでに始まっていた…!

AI

のか…?! やはり クロック耐性を増すべく パイプラインの段数を増やしつつ 投機的実行も盛大にやるなどという 天を目指す設計は 神の怒りに触れる所業 だったのですよ、、

急がば回すな

AI

Pentium 4が出たすぐの頃スピンロックによる同期が異様に遅い!と騒ぎになった記憶があったがこういうことだったのくぁー!!!!! (中略) 最近言及したキーワード:隠蔽 (中略) 効率≠能率の総和 (以下略)