前回の続き。
前回は、Kerasを利用したのだが、今回は numpyだけで実装してみた。ゼロから作るDeepLearningを大いに参考にした。
- Kerasと同じことを実装はずなのに、結果が同じにならない。
- エピソードを重ねても生存率が頭打ちになって、伸びない。
- 調子のいいときと調子の悪いときがある。エピソードの開始時に運良く生存すると、その後の生存率が上がる。
結果
解けなかった。
https://gym.openai.com/evaluations/eval_iNrsSMkNSxW1wGF0b1lspg
コード
https://gist.github.com/tsu-nera/6250f01a8f1a5ae37bdda84ebb424e5f