前回の続き。
以下の本のoctaveでかかれたコードをpythonで書き直した。
–リンク消えました–
勝率がよくないので、自分の実装がバグっている可能性大。でも、本でもそれほど勝率は高くなかったので、何とも言えない。
間違ったコードを公開することは抵抗があるけれども、今後誰かが勉強するための足がかりになればと思い公開。
SARSA法
サンプルコードのQテーブルの更新式が怪しい。Q学習と同じになっている。s-a-r-s-aになっていないのだ。なので、書籍とは違う実装にした。
https://gist.github.com/tsu-nera/89c8b6a6ebdd076aa789ba53fa5c9d9b
Q学習
https://gist.github.com/tsu-nera/e5ba529a04ca02c48697471636c4a32b