LEGO x 強化学習の初の成果が出た。

強化学習の古典的問題、crawler に Q-Learningを適用して前に進むことを学習させたのだ.

まずは見るのが早い。一つ目の動画は学習を開始して間もない動画。ランダムに尾をうごかして、運良く前にすすんでいることがわかる。

次に、10分ほど学習させた結果が以下。明らかに、意図して前にすすんでいることが分かる。

今回利用したアルゴリズムはQ-Learning。

赤外線センサで壁との位置を計測して、壁に塚づいたら報酬を与える。

以下が今回のソースコードです。

https://gist.github.com/tsu-nera/57c4b1c84ce2470e8405d410e9fdfcfa