AlphaZeroは思考時間が長いと先手勝率が高い #36

yssaya · 2020-09-11T11:24:39Z

今まで気づかなかったのですが、論文のFig 2をよく見ると
AlphaZeroはelmoに対して思考時間が長いほど、先手での勝率が上がっています。

下はグラフから読み取ったAlphaZeroの対elmoの勝率です。
グラフに合わせて、AlphaZeroが後手のとき、先手のとき、の勝と引き分けの値、
そして先手と後手での勝率の差です。

思考時間が1/100の時は、先手と後手の差は+30 ELO、勝率で0.54程度の差で、
これなら通常の将棋の勝率に近いです。
しかし、思考時間を増やすごとに先手と後手の差は広がり、
same time(持時間3時間)では +390 ELO もの差になっています。

AlphaZeroは探索速度は4TPUで 58000回/秒なので持時間3時間の100分の1、108秒だと
1手1秒程度かと思います。elmoは 44 threadで 25100k /秒です。

現在のAobaZero(w1650)の勝率は

 1手  800 playout 対 elmoの1手   346k   勝率 87.9%  (先手勝率 89%、後手勝率 87%)
 1手 8000 playout 対 elmoの1手  3462k   勝率 78.9%  (先手勝率 81%、後手勝率 77%) 先手で宣言勝ちは95%の割合
 1手58000 playout 対 elmoの1手 25100k   勝率 計測中

まだ先手勝率が上がっていく気配はないです。
1手1秒の再現実験でも20日間かかり、持時間3時間で1000局の再現実験は3年ぐらいで厳しそうです。

AlphaZeroの対elmoでの思考時間を変えた時の勝率(グラフから読み取った数値)

     勝  引分  勝率    ELO   先手と後手の差(ELO)
1/100
  42.8%, 5.6% (45.6%   -31 )
  49.6%, 0.5% (49.9%    -1 )  +30
1/30
  68.0%  2.1% (69.1%  +140 )
  79.1%  0.9% (79.6%  +237 )  +97
1/10
  69.9%  2.8% (71.3%  +158 )
  91.2%  0  % (91.2%  +406 ) +248
1/3
  80.0%  1.6% (80.8%  +250 )
  95.2%  0.8% (95.6%  +535 ) +285
same time
  84.2%  2.2% (85.3%  +305 )
  98.2%  0  % (98.2%  +695 ) +390

A general reinforcement learning algorithm that masters chess,shogi,and Go through self-play
https://science.sciencemag.org/content/sci/362/6419/1140.full.pdf

The text was updated successfully, but these errors were encountered:

yssaya mentioned this issue Dec 5, 2020

現在のAobaZeroの対elmoの勝率 #49

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

AlphaZeroは思考時間が長いと先手勝率が高い #36

AlphaZeroは思考時間が長いと先手勝率が高い #36

yssaya commented Sep 11, 2020

AlphaZeroは思考時間が長いと先手勝率が高い #36

AlphaZeroは思考時間が長いと先手勝率が高い #36

Comments

yssaya commented Sep 11, 2020