• このエントリーをはてなブックマークに追加

前回の続き。

以下の本のoctaveでかかれたコードをpythonで書き直した。

勝率がよくないので、自分の実装がバグっている可能性大。でも、本でもそれほど勝率は高くなかったので、何とも言えない。

間違ったコードを公開することは抵抗があるけれども、今後誰かが勉強するための足がかりになればと思い公開。

SARSA法

サンプルコードのQテーブルの更新式が怪しい。Q学習と同じになっている。s-a-r-s-aになっていないのだ。なので、書籍とは違う実装にした。

Q学習