【強化学習】これからの強化学習 1.3.3. Sarsaの実装

Published in

Music and Technology

1 min readSep 12, 2017

--

これからの強化学習を読んでいる。1.3.3. にてSarsaというアルゴリズムが紹介されていたので、参考記事を一部修正する形で実装した。

takitsuba/korerl

korerl - これからの強化学習

github.com

上記のJupyterNotebookの最後で、行動評価関数Q の収束値を見た所、肌感覚と合っているのでおそらく大丈夫かな。

参考にさせていただいたのは下記の記事。実装例が少ないこともあり、大変助かりました、ありがとうございます。

強化学習 - Python3でSarsaを使って行動価値を出す

これからの強化学習という本の31頁にのってる状態遷移グラフの行動価値をSarsaを使って出してみます。ちなみに...

endoyuta.com

Reinforcement Learning

プログラミング

takkii

Written by takkii

Editor for

Music and Technology

Competitive Programming, MachineLearning, Manga, Music, BoardGame.

Help
Status
About
Careers
Press
Blog
Privacy
Terms
Text to speech
Teams