Advantageを使ったActor-Criticの学習で、ちょっとはまった点があったのでそのことについて書き留めておきたいと思います。要約すると、以下のようになります。
Replay Bufferは、環境での経験を直接ではなくバッファに貯めて利用する手法です。これにより、学習時に直近の経験だけでなく過去の経験も活用することができます。Deep…
「最近Qiitaに記事は書かないんですか?」と聞かれる機会があったので、考えていることを書こうかなと思いました。ちょうど卒業シーズンなので、時期的にもいいかなと。本記事の趣旨は以下の通りです。