【強化学習】これからの強化学習 1.3.3. Sarsaの実装

takkii
Music and Technology
1 min readSep 12, 2017

これからの強化学習を読んでいる。1.3.3. にてSarsaというアルゴリズムが紹介されていたので、参考記事を一部修正する形で実装した。

上記のJupyterNotebookの最後で、行動評価関数Q の収束値を見た所、肌感覚と合っているのでおそらく大丈夫かな。

参考にさせていただいたのは下記の記事。実装例が少ないこともあり、大変助かりました、ありがとうございます。

--

--

takkii
Music and Technology

Competitive Programming, MachineLearning, Manga, Music, BoardGame.