CartPole問題にDQN(numpy only)で挑戦したけど解けなかった

July 9, 2017 · 1 min · tsu-nera

Table of Contents

結果
コード

前回の続き。

OpenAI Gymの CartPole問題をDQNで解いた | Futurismo

前回は、Kerasを利用したのだが、今回は numpyだけで実装してみた。ゼロから作るDeepLearningを大いに参考にした。

Kerasと同じことを実装はずなのに、結果が同じにならない。
エピソードを重ねても生存率が頭打ちになって、伸びない。
調子のいいときと調子の悪いときがある。エピソードの開始時に運良く生存すると、その後の生存率が上がる。

結果

解けなかった。

https://gym.openai.com/evaluations/eval_iNrsSMkNSxW1wGF0b1lspg

コード

https://gist.github.com/tsu-nera/6250f01a8f1a5ae37bdda84ebb424e5f