We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
今まで気づかなかったのですが、論文のFig 2をよく見ると AlphaZeroはelmoに対して思考時間が長いほど、先手での勝率が上がっています。
下はグラフから読み取ったAlphaZeroの対elmoの勝率です。 グラフに合わせて、AlphaZeroが後手のとき、先手のとき、の勝と引き分けの値、 そして先手と後手での勝率の差です。
思考時間が1/100の時は、先手と後手の差は+30 ELO、勝率で0.54程度の差で、 これなら通常の将棋の勝率に近いです。 しかし、思考時間を増やすごとに先手と後手の差は広がり、 same time(持時間3時間)では +390 ELO もの差になっています。
AlphaZeroは探索速度は4TPUで 58000回/秒 なので持時間3時間の100分の1、108秒だと 1手1秒程度かと思います。elmoは 44 threadで 25100k /秒 です。
現在のAobaZero(w1650)の勝率は
1手 800 playout 対 elmoの1手 346k 勝率 87.9% (先手勝率 89%、後手勝率 87%) 1手 8000 playout 対 elmoの1手 3462k 勝率 78.9% (先手勝率 81%、後手勝率 77%) 先手で宣言勝ちは95%の割合 1手58000 playout 対 elmoの1手 25100k 勝率 計測中
まだ先手勝率が上がっていく気配はないです。 1手1秒の再現実験でも20日間かかり、持時間3時間で1000局の再現実験は3年ぐらいで厳しそうです。
AlphaZeroの対elmoでの思考時間を変えた時の勝率(グラフから読み取った数値)
勝 引分 勝率 ELO 先手と後手の差(ELO) 1/100 42.8%, 5.6% (45.6% -31 ) 49.6%, 0.5% (49.9% -1 ) +30 1/30 68.0% 2.1% (69.1% +140 ) 79.1% 0.9% (79.6% +237 ) +97 1/10 69.9% 2.8% (71.3% +158 ) 91.2% 0 % (91.2% +406 ) +248 1/3 80.0% 1.6% (80.8% +250 ) 95.2% 0.8% (95.6% +535 ) +285 same time 84.2% 2.2% (85.3% +305 ) 98.2% 0 % (98.2% +695 ) +390
A general reinforcement learning algorithm that masters chess,shogi,and Go through self-play https://science.sciencemag.org/content/sci/362/6419/1140.full.pdf
The text was updated successfully, but these errors were encountered:
No branches or pull requests
今まで気づかなかったのですが、論文のFig 2をよく見ると
AlphaZeroはelmoに対して思考時間が長いほど、先手での勝率が上がっています。
下はグラフから読み取ったAlphaZeroの対elmoの勝率です。
グラフに合わせて、AlphaZeroが後手のとき、先手のとき、の勝と引き分けの値、
そして先手と後手での勝率の差です。
思考時間が1/100の時は、先手と後手の差は+30 ELO、勝率で0.54程度の差で、
これなら通常の将棋の勝率に近いです。
しかし、思考時間を増やすごとに先手と後手の差は広がり、
same time(持時間3時間)では +390 ELO もの差になっています。
AlphaZeroは探索速度は4TPUで 58000回/秒 なので持時間3時間の100分の1、108秒だと
1手1秒程度かと思います。elmoは 44 threadで 25100k /秒 です。
現在のAobaZero(w1650)の勝率は
まだ先手勝率が上がっていく気配はないです。
1手1秒の再現実験でも20日間かかり、持時間3時間で1000局の再現実験は3年ぐらいで厳しそうです。
AlphaZeroの対elmoでの思考時間を変えた時の勝率(グラフから読み取った数値)
A general reinforcement learning algorithm that masters chess,shogi,and Go through self-play
https://science.sciencemag.org/content/sci/362/6419/1140.full.pdf
The text was updated successfully, but these errors were encountered: