Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

現在のAobaZeroの対elmoの勝率 #49

Open
yssaya opened this issue Dec 5, 2020 · 0 comments
Open

現在のAobaZeroの対elmoの勝率 #49

yssaya opened this issue Dec 5, 2020 · 0 comments

Comments

@yssaya
Copy link
Collaborator

yssaya commented Dec 5, 2020

論文に近い条件でelmo(WCSC27)対戦させた結果が下です。

AlphaZeroはelmoに対して

勝率91.2%(+410)(先手番だと98.2%(+695)、後手で84.2%(+291))  持時間3時間15秒。1手3分?

AobaZeroはelmoに対して

勝率73.8%(+179)(先手番だと78.3%(+223)、後手で69.1%(+140))  1手10秒相当

ですので、+231 ほどまだ差があります。
w1650 と少し古いweightの結果で最新は +40 ほど強いので差は +191 ほどかもしれません。

先手番の差は +472(695 - 223)
後手番の差は +151(291 - 140)

と、先手番での差が大きいです。
気になる要因としてはAlphaZeroは思考時間が長いほど先手勝率が高く、
1手10秒相当のAobaZeroもその傾向が出ています。1手3分相当で今の20倍ほど
時間をかければレート差は小さくなるのかもしれません。

AlphaZeroは思考時間が長いと先手勝率が高い
#36

AobaZero vs elmo(WCSC27) (AlphaZeroの論文の1手10秒相当)

全体勝率 0.738 (86勝5分29敗)           +179 Elo
先手勝率 0.783 (46勝2分12敗) 宣言45勝  +223 Elo  (後手との差 +83 Elo)
後手勝率 0.691 (40勝3分17敗) 宣言25勝  +140 Elo

AobaZero,    w1650, 580000 playout/手, 最初の30手までは勝率2%以下ならSoftmaxで選択。
elmo(WCSC27)        251000k       /手, 6 threads, HASH 8GB, elmo付属の定跡使用

この120局で、2080Tiの学習の空き時間を使って2か月半かかってます。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant