前回の続き。

以下の本のoctaveでかかれたコードをpythonで書き直した。

–リンク消えました–

勝率がよくないので、自分の実装がバグっている可能性大。でも、本でもそれほど勝率は高くなかったので、何とも言えない。

間違ったコードを公開することは抵抗があるけれども、今後誰かが勉強するための足がかりになればと思い公開。

SARSA法

サンプルコードのQテーブルの更新式が怪しい。Q学習と同じになっている。s-a-r-s-aになっていないのだ。なので、書籍とは違う実装にした。

https://gist.github.com/tsu-nera/89c8b6a6ebdd076aa789ba53fa5c9d9b

Q学習

https://gist.github.com/tsu-nera/e5ba529a04ca02c48697471636c4a32b