三目並べ(tic-tac-toe) をモンテカルロ法をつかって学習させました。
元ネタは、これ。
この本のコードは Octave でかかれているのだけれども、それを Python にポーティングしてくれた人がいた。
自分はなにをしたかというと、このコードを OpenAI Gym の tic-tac-toe に対応させてみた(tic-tac-toe は非公式)
ただ移しただけだと動かなかった。それから 10 時間くらいでばっくをしていた。頭がおかしくなる。
うああああああああああああええああああああぁぁぁぁぁ〜〜〜どこがばぐってるんだ〜〜〜〜〜〜〜。
— tsu-nera@勉強垢 (@tsu_nera_s) 2017 年 6 月 14 日
コード
おまけ: プルリク奮戦記
じつは、OpenAI Gym の tic-tac-toe リポジトリにバグっぽいのをみつけた。
ピンチ!いやチャンス?
自分は他人の Github リポジトリにプルリクをしたことがないのだ。
まずは気さくな感じを醸し出して質問をしてみた。Hello!! :-)
1 分も立たずに返信が帰ってきたのでビビる。はえーよ!
feel free to provide a PR!!
もうこの言葉が理解できずにガクガクした。なにかへんな英語表現を使っちゃったかな??
大丈夫、PR は Pull Reqest のことだ。って、ぅえ〜〜〜〜〜。やったことないよ〜〜〜。
プルリクエストの作法を調べる。
- branch 経由
- fork repository 経由
検索上位に引っかかるのは、初心者は branch を切る方法が勧められている。
バカだから何を思ったのか、fork ポタンをポチリ。。。。。fork してしまったぁぁ!!!
とりあえず、バグの修正をして、fork した自分のリポジトリに push
そして、GUI 画面から PULL REQUEST !!!!
ふう、まつこと数分・・・ 10 分でレスポンスが帰ってきた。もう心臓に悪りーよ。
- コメントの単語が適切でない
- 冗長な for 文の回し方をしている
その通りです、なにもいうことはありません。 こっちも急いで修正して、再コミット!!
祈った。。。そうして待つこと 15 分、ついに Merge されました〜〜〜〜!!!
うらららららららららら〜〜〜〜〜〜〜!