Advantageを使ったActor-Criticの学習で、ちょっとはまった点があったのでそのことについて書き留めておきたいと思います。要約すると、以下のようになります。
Replay Bufferは、環境での経験を直接ではなくバッファに貯めて利用する手法です。これにより、学習時に直近の経験だけでなく過去の経験も活用することができます。Deep…
Pythonで学ぶ強化学習の発売から約1カ月となりました。
約1年半ほどかかりましたが、「Pythonで学ぶ強化学習 入門から実践まで」を書き上げました。本記事ではAsian Kung-Fu Generationさんがアルバム発売の度に行っている全曲解説にのっとり、各章の見所や苦労した点を紹介したいと思います。