【強化学習】これからの強化学習 1.3.3. Sarsaの実装
Published in
1 min readSep 12, 2017
これからの強化学習を読んでいる。1.3.3. にてSarsaというアルゴリズムが紹介されていたので、参考記事を一部修正する形で実装した。
上記のJupyterNotebookの最後で、行動評価関数Q の収束値を見た所、肌感覚と合っているのでおそらく大丈夫かな。
参考にさせていただいたのは下記の記事。実装例が少ないこともあり、大変助かりました、ありがとうございます。