Sign in Get started

Tagged in

Reinforcement Learning

programming-soda

Exciting research & programming like soda!

More information

Followers

166

Elsewhere

More, on Medium

Reinforcement Learning

piqcy in programming-soda

AdvantageでActor-Criticを学習する際の注意点

Advantageを使ったActor-Criticの学習で、ちょっとはまった点があったのでそのことについて書き留めておきたいと思います。要約すると、以下のようになります。

piqcy in programming-soda

Replay BufferがPolicy Gradientで使えない理由

Replay Bufferは、環境での経験を直接ではなくバッファに貯めて利用する手法です。これにより、学習時に直近の経験だけでなく過去の経験も活用することができます。Deep…

piqcy in programming-soda

Pythonで学ぶ強化学習 -一問一答-

Pythonで学ぶ強化学習の発売から約1カ月となりました。

piqcy in programming-soda

Pythonで学ぶ強化学習 -入門から実践まで-を書きました

約1年半ほどかかりましたが、「Pythonで学ぶ強化学習入門から実践まで」を書き上げました。本記事ではAsian Kung-Fu Generationさんがアルバム発売の度に行っている全曲解説にのっとり、各章の見所や苦労した点を紹介したいと思います。