前回の続き。

前回は、Kerasを利用したのだが、今回は numpyだけで実装してみた。ゼロから作るDeepLearningを大いに参考にした。

  • Kerasと同じことを実装はずなのに、結果が同じにならない。
  • エピソードを重ねても生存率が頭打ちになって、伸びない。
  • 調子のいいときと調子の悪いときがある。エピソードの開始時に運良く生存すると、その後の生存率が上がる。

結果

解けなかった。

https://gym.openai.com/evaluations/eval_iNrsSMkNSxW1wGF0b1lspg

コード

https://gist.github.com/tsu-nera/6250f01a8f1a5ae37bdda84ebb424e5f