機械学習におけるモデルの構築と学習は、近年より速く・簡単に・自動的にできるようになってきています。この技術的な進歩は、より多くの仮説 — 様々な研究アイデア、ビジネスデータへの適用 —…
Advantageを使ったActor-Criticの学習で、ちょっとはまった点があったのでそのことについて書き留めておきたいと思います。要約すると、以下のようになります。
Replay Bufferは、環境での経験を直接ではなくバッファに貯めて利用する手法です。これにより、学習時に直近の経験だけでなく過去の経験も活用することができます。Deep…
Pythonで学ぶ強化学習の発売から約1カ月となりました。
約1年半ほどかかりましたが、「Pythonで学ぶ強化学習 入門から実践まで」を書き上げました。本記事ではAsian Kung-Fu Generationさんがアルバム発売の度に行っている全曲解説にのっとり、各章の見所や苦労した点を紹介したいと思います。
言語モデルは、自然言語処理において最も基本的なタスクです。ただ、実装によってその性能は大きく左右されます。本記事では「言語モデルの実装」として紹介されることの多い2つの実装パターン、そしてその性能差について解説を行っていきます。