2010-01-01から1年間の記事一覧
もちろん非探索ベースの学習手法(次手からいきなり最適政策の獲得に動くような)の時間効率と、探索ベースの学習手法(探索を挟んで問題を簡単にした上で学習にかける(またはDPに持ち込む))との時間効率の違いまで同一視するつもりはなくて、速くなった…
3日間フルタイムで取り組んでようやく読み終えたorz語るべきことはあまり多くない希ガス、、 RootStrapやTD-Leafより対戦者の強さに鈍感であるとする根拠が不明確 これについては後で書く Figure 2のグラフの続きを見せて欲しい TreeStrapがレーティングが頭…
現実逃避したくなることがいっぱいだから現実逃避してみた。 ここの超訳。 無許可でしかも途中までで訳したより先は全く読んでないというおまけつき。ゲーム木探索結果による探索ブートストラップ手法 Joel Veness, David Silver, Wiliam Uther, Alan Blair(…
(ry
独立して設計・製造された探索プログラムが行う探索において、評価値への誤差の乗り方はそれぞれ異なる傾向を有するハズ。それでも最善手が一致したなら、それは評価関数の誤差に対して感度が小さい手だったから、というのがありそうな説明であり、だとすれ…
相変わらず固定深さまでの探索で考える。 探索のルートノードはORノード(自己手番)である。探索の末端ノードもORノードに揃えたとする。 前々回のエントリで固定深さまでのmin-max探索において無限に高精度な評価関数の存在を示せたから、この線からまず入…
といってもごく単純なアイデアだる昨日は、自己手番のノードa(ORノード)の子の1つa'選んで評価値をかさ上げするには、その子から到達する探索の末端ノード全てについて、評価値を等しくかさ上げするのだと言った。そうすればa'の評価値は間違いなくかさ上…
昨日書いた評価関数構成法と称するものは、ノードaからゲーム終局まで連鎖する真の最善手の系列一式を要求するが、そんなものがわかっているならわざわざ評価関数を構成してmin-max探索を行うまでもないorzフーリエ変換云々は、保険としてのモンテカルロ法将…
この連休中において、評価関数を10倍速にすることに成功したから複数コア動員で置換表の助け無しに50万NPSぐらい逝ける気がする目処がたった それはそうと、今日は、2chの某スレで煽ったり罵ったり怒鳴り合ったりしてるうちに気づいたことなどを書く こいつ…
省略しちゃ、イカン
まあ 生きてりゃもう一回ぐらいやれるさ…
某スレより 生駒(成ってない駒)は移動元が敵陣の場合、 禁手で無い限り移動先を問わず「成」も「不成」も選択できる。 よってリンク先の局面の場合 9一飛は「??飛成」で16手、「??飛不成」で16手、 5三角は「??角成」で12手、「??角不成」で12手、 …
Q1. 早く動くブツ見せてよ A1. It's a showmanship.Q2. 間に合うの? A2. Trust me.
2月の頭ごろに公開デバッグしたTelexクラスにはさらに深刻なバグがあった氏にたい|||。n_ ↓Receive()の中をこんなかんじみたくしてnb==0になるのを避けないと、待ってる間回り続けてCPU時間を消費するという、、orz // 読み出す DWORD nbMax = bufSz - wp; //…
最多合法手局面の合法手の数が593通りだというのでうちのプログラムで数えたら565手だったorz ただ、これはたまたまであってバグではない木がするけど、、ひょっとして、プログラムよりもGMA0BN自体の深刻なバグの兆候…? 【内訳】 持駒_桂_(63-4)x1=59 持駒…
A. 進捗は? Q. も(ry
およそ1年にわたりカテゴリー:AIで妄言を書きまくってきたわけですが、その集大成を文書にしました!→ここ文書も完成したことだし、あとは実(ry■2010/03/15 00:1200:38追記 文書の2.4.項後半を修正してv.3v.4としました。(方式の有効性について説明を追加。)
CSAサーバ プロトコル ver.1.1.3を読みながらログイン→対局→ゲーム終了の流れを書き下していっていくつか疑問が残った。CSAサーバ プロトコルを正しく解釈するクライアントの実装は実はムズいといわざるおえない サーバからLOGOUT:completeが送られてくるタイ…
昨日のEchoサーバーもどきのサンプルはVS2008でWin32 コンソール アプリケーションとしてビルドして一応動作したのだが、流れでReleaseビルドでしかテストできていなかったのでDebugビルド時に起きる不具合を見逃したorzCSocket::Create()からMFCの初期化依…
上のEchoサーバもどきにCSAプロトコルのGame_Summaryを256個ほど連続で送りつけてみてわかったのだが、計8448行のうちの最後の数行を読み込まないままエコーバックを中断し、次の入力があるまでそのままになってしまうバグをハケンすたorzこれは、nb == 0でslvS…
ソケットを使ったプログラミングなどやったことがない反面、通信相手が送ってきたものを全部チェックするようなゴージャスな通信プログラムを作りたい、 というわけでhttp://www.computer-shogi.org/protocol/WinSample07Jan.lzhを参考にせんとす(ry (48時間…
次の3点に対応した。 行単位送受信処理の行の解釈・レスポンス送出処理からの分離(コルーチン化) 受信タイムアウト設定 そこそこ強固なエラー処理Receive()やSend()の戻り値がSOCKET_ERRORかどうか見るようにしたり色々。 今や上のEchoサーバーもどきは次の…
当blogはフィクションであり 実在の個人・団体・コンピュータ将棋プログラム・コンピュータ将棋プロジェクトなどとは 一切関係ふじこlp
x座標やy座標の値が座標系のとり方依存だからスカラーとは呼ばれないのと同様に、α値もβ値も一般にスカラーとは呼べないどういうことだキバヤシ?つまり、αβ法のトラバースする様子を考えれば、あるノードNにおけるα値とβ値が確定するためには、Nを根とする…
今日わ、「評価関数の精度」とか、そこらへんについて考えてみたい。個人的には 二人零和有限確定完全情報ゲームに神の一手が存在する という事実と df-pn探索 は完璧に整合する*1のに対し、min-max法(含αβ法)の立ち位置はなんか微妙─────みたいな、確かに「…
のか…?! やはり クロック耐性を増すべく パイプラインの段数を増やしつつ 投機的実行も盛大にやるなどという 天を目指す設計は 神の怒りに触れる所業 だったのですよ、、
Pentium 4が出たすぐの頃スピンロックによる同期が異様に遅い!と騒ぎになった記憶があったがこういうことだったのくぁー!!!!! (中略) 最近言及したキーワード:隠蔽 (中略) 効率≠能率の総和 (以下略)
今日わ、昨日思いついたゲーム木の描像(探索を開始するORノード直下のANDノードをS1'とS2'に分類し、かつそれらの元を部分木とみなす)を頭に置きつつ、固定深さまでの探索の先端ノードから、さらに探索を延長する様子を思い描いてみようすると、仮に評価関数…
普通外部DDRメモリへの書き込みはプロセッサから見るとキャッシュコントローラ以下が遅延書き込みしてくれるはずなので実質遅延0とみなせるはず。このアドバンテージを捨て、置換表エントリ書き込みに外部メモリ書き込みレイテンシ1回分の待ちを許容するなら…
先日の日記id:GMA0BN:20100115#1263554285に何か ここで、pのα値とは、p以外の枝を無視したときのα値を指すとする。β値も同様。 とか書いてあるんですけど。 pは分岐のない1本の枝なわけだから、普通の人なら pのα値 = pのβ値 = pの葉の評価値 であることに…