Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

AlphaZeroは思考時間が長いと先手勝率が高い #36

Open
yssaya opened this issue Sep 11, 2020 · 0 comments
Open

AlphaZeroは思考時間が長いと先手勝率が高い #36

yssaya opened this issue Sep 11, 2020 · 0 comments

Comments

@yssaya
Copy link
Collaborator

yssaya commented Sep 11, 2020

今まで気づかなかったのですが、論文のFig 2をよく見ると
AlphaZeroはelmoに対して思考時間が長いほど、先手での勝率が上がっています。

下はグラフから読み取ったAlphaZeroの対elmoの勝率です。
グラフに合わせて、AlphaZeroが後手のとき、先手のとき、の勝と引き分けの値、
そして先手と後手での勝率の差です。

思考時間が1/100の時は、先手と後手の差は+30 ELO、勝率で0.54程度の差で、
これなら通常の将棋の勝率に近いです。
しかし、思考時間を増やすごとに先手と後手の差は広がり、
same time(持時間3時間)では +390 ELO もの差になっています。

AlphaZeroは探索速度は4TPUで 58000回/秒 なので持時間3時間の100分の1、108秒だと
1手1秒程度かと思います。elmoは 44 threadで 25100k /秒 です。

現在のAobaZero(w1650)の勝率は

 1手  800 playout 対 elmoの1手   346k   勝率 87.9%  (先手勝率 89%、後手勝率 87%)
 1手 8000 playout 対 elmoの1手  3462k   勝率 78.9%  (先手勝率 81%、後手勝率 77%) 先手で宣言勝ちは95%の割合
 1手58000 playout 対 elmoの1手 25100k   勝率 計測中

まだ先手勝率が上がっていく気配はないです。
1手1秒の再現実験でも20日間かかり、持時間3時間で1000局の再現実験は3年ぐらいで厳しそうです。

AlphaZeroの対elmoでの思考時間を変えた時の勝率(グラフから読み取った数値)

     勝  引分  勝率    ELO   先手と後手の差(ELO)
1/100
  42.8%, 5.6% (45.6%   -31 )
  49.6%, 0.5% (49.9%    -1 )  +30
1/30
  68.0%  2.1% (69.1%  +140 )
  79.1%  0.9% (79.6%  +237 )  +97
1/10
  69.9%  2.8% (71.3%  +158 )
  91.2%  0  % (91.2%  +406 ) +248
1/3
  80.0%  1.6% (80.8%  +250 )
  95.2%  0.8% (95.6%  +535 ) +285
same time
  84.2%  2.2% (85.3%  +305 )
  98.2%  0  % (98.2%  +695 ) +390

20200911fig2b

A general reinforcement learning algorithm that masters chess,shogi,and Go through self-play
https://science.sciencemag.org/content/sci/362/6419/1140.full.pdf

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant