v30
【ビルド済みバイナリ】
・aobazero-30-w64-opencl.zip (64ビット版 Windows で GPU を利用したいユーザ用)
・aobazero-30-w64-cpu-only.zip (64ビット版 Windows で GPU を利用したくないユーザ用)
【主な変更点】
・policyを出力するsoftmaxの温度を1.0から1.8に変更しました。これによって1手800playoutだと+50 Eloほど強くなっています。
Policyを出力するときのSoftmaxの温度
https://524.teacup.com/yss/bbs/3914
以降は自己対戦で学習棋譜を作る場合の変更点です。
・kldgainを0.0000013から 0.000006 に変更しました。policyの温度を1.8にしたことで1手平均1485playoutに増えるのが1手平均789playoutになります。
・30手目までを探索なしでPolicyの確率で着手し、かつ、30手後の勝率がある範囲に収まるのを中止しました。
勝率の調整は強化学習ではまずく、これによって初手にどんな手を指しても1手後の勝率(value)は同じ、に
なっていました。
・30手までのランダム性はもとに戻しました。温度も1.3ではなく、1.0です。
・30手以内での投了を禁止、をやめました。いつでも投了します。
・これによって、一時期勝率が0.70を超えていたのが0.56まで戻っています。双方30手までは悪手を指すので実際はもっと先手勝率は高いはずです。