3値を超える評価関数は最強手筋の近似手段にすぎない

AI

アク禁で書けないからここに書く(何 66x 名前：名無し名人 [sage] 投稿日： 2009/12/23(水) 17:48:xx id:xxxxxxxx >>659 数ある手の中で最善手が一意に決まるでおk 特に将棋のような二人零和有限確定完全情報ゲームにおいては必勝(最悪でも引き分け)となる…

2009-12-12

TD法はなぜうまくいかないのか

AI

宇宙の熱的死を認めるなら、十分大きい時間が経過したときの宇宙の巨視的な状態の分布はエルゴード性を満たす(単一状態しかないから)。いやそこまで風呂敷を広げずに二人零和有限確定完全情報ゲームに話を限ろう。この場合も同様に、対戦者同士が常に同じ…

2009-12-10

TD法はなぜうまくいかないのか

AI

(以下検閲削除)

2009-12-10

注文の多い学習メソッド

AI

というわけで、学習に1ヶ月かかるがさらに試合中に百万局面読めといわれて疑問を感じないのはかなりお人好しだと思う長くなったが前向き枝刈りはネ申がやれば無問題でありオールおk

2009-12-10

基底関数の線形結合ベースの学習手法は裸の王様

AI

パーセプトロン、ニューラルネットワーク、ロジスティック回帰、サポートベクトルマシン…これらは全て何らかの基底関数の線形結合を用いて識別を行おうとするものであり、近似の万能性が数学的に証明される。だがヒルベルト空間みたいな贅沢な概念を前提とす…

2009-12-10

たくさん読めば強くなる？--弱い評価関数のブースト手法

AI

そんな便利なもの存在しないというのが現時点でのGMA0BNの見解。

2009-12-10

ミニマックス法(αβ法)の神話

AI

ミニマックス法は条件付き確率P( 自分が勝つ | 相手が最善手のみ打つ )を最大化する探索法でありαβ法はその高速版だ。ここでP(ω)は事象ω∈Ωの確率。より正確に言うと、通常はゲーム木の高さより小さい値の深さ制限d_maxをつけて探索するから、 P( 現局面から…

2009-12-09

df-pn#再誕

AI

改めて昨日の記事を読み返すとドー見てもネタバレになっている箇所があったのでいっそバラしてみるテスト。 df-pn探索において根ノードからの経路の記憶を持たずとも、根ノードからの深さがdであるノードにおいて登録した局面表のエントリeを、それからm回後…

2009-12-08

今月がタイムリミットなのは万人にとっての普遍的真理

AI

機械学習とチューニングに要する時間を逆算すると年内にせめて学習部ぐらいは形にしないといけない(もちろん実戦を積ませようとするならもっと急ぐ)。ここでGMA0BNの迷走ぶりを報道するという当blogの使命を思い出したので、機械学習についてGMA0BNの過去の…

2009-12-08

y…いやミスター・キシドー、

AI

あーあ漏れにもあれぐらい知能があったらなあ、、

2009-12-08

二人零和有限確定完全情報ゲームが先手不敗か後手不敗のどちらかであることを証明できるから証明してみた

AI

二人零和有限確定完全情報ゲームGでプレイヤーA,B2人が対戦、A先手、かつ下記とする。 [仮定1] A,Bいずれも自分の手番で手xを打てば相手の負けが確定する場合、ミスなくその手xを打つ Gのゲーム木の高さについて、それが2以下の場合首記定理の成立は自明なの…

思うだけで学ばない日記 2.0

思うだけで学ばない日記から移転しました☆！よろしくお願いします。

2009-12-01から1ヶ月間の記事一覧

3値を超える評価関数は最強手筋の近似手段にすぎない

TD法はなぜうまくいかないのか

TD法はなぜうまくいかないのか

注文の多い学習メソッド

基底関数の線形結合ベースの学習手法は裸の王様

たくさん読めば強くなる？--弱い評価関数のブースト手法

ミニマックス法(αβ法)の神話

df-pn#再誕

今月がタイムリミットなのは万人にとっての普遍的真理

y…いやミスター・キシドー、

二人零和有限確定完全情報ゲームが先手不敗か後手不敗のどちらかであることを証明できるから証明してみた