Averaged-DQN

chainer implementatio of Averaged-DQN. This code is partly based on here.

Abstract

By taking the average of the latst k parameters for estimaing the Q-function, Averaged-DQN stablizes the performance. If k is 1, this is essentially the same as standard DQN.

How to use

python averaged_dqn.py --K=k --Episode=episode　　

Analysis

I check the estimation error of Q-function varying the value of k.

k=1	k=2	k=3	k=5	k=10
53.98	10.27	1.43	1.42	0.69

By increasing the value of k, you can reduce estimation error.

Next, I checked the average reward for each episode.

k=1	k=2	k=3	k=5	k=10
152.36	151.85	149.69	165.04	130.29

When setting the value of k to be 5, it shows the best performance.

The detail is described in averaged_dqn_analysis.ipynb.

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
Episode_400_K_1.summary_csv		Episode_400_K_1.summary_csv
Episode_400_K_10.summary_csv		Episode_400_K_10.summary_csv
Episode_400_K_2.summary_csv		Episode_400_K_2.summary_csv
Episode_400_K_3.summary_csv		Episode_400_K_3.summary_csv
Episode_400_K_5.summary_csv		Episode_400_K_5.summary_csv
README.md		README.md
averaged_dqn.py		averaged_dqn.py
averaged_dqn_analysis.ipynb		averaged_dqn_analysis.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Averaged-DQN

Abstract

How to use

Analysis

About

Releases

Packages

Languages

smayru/Averaged-DQN

Folders and files

Latest commit

History

Repository files navigation

Averaged-DQN

Abstract

How to use

Analysis

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages