【強化学習】「これからの強化学習」 1.1 の読書メモ
友人と、「これからの強化学習」の読書会をしている。
その読書メモを残しておく。
1.1.1 強化学習の考え方
キーワード
行動する主体:エージェント
働きかける対象:環境
変化する環境の要素:状態
行動の評価の指標:報酬(利得、損失、コスト)
方策:現在の環境の状態を入力して、行動を出力する関数
報酬
報酬の種類としては、即時報酬、遅延報酬の2つがある。遅延報酬の扱いは強化学習における本質問題の1つ。
収益とは、即時報酬だけでなく、その後に得られる遅延報酬も含めた全ての結果である。より遠くの未来の報酬を割り引いたりもする。
主な課題
エージェントははじめは環境に関して事前の知識を持ってない。知識を収集しながら最適な行動を計画するためにはどうすれば良いかを考えることが、強化学習における中心的な課題。
探索と利用のトレードオフ:学習結果を利用しようとすると、探索結果が減ってしまう。
1.1.2. 多腕バンディット問題
腕がK個あるスロットマシン、どの腕を引くか、という問題。
1.1.3. greedyアルゴリズム
貪欲法。
はじめに各腕で何回かずつ引き、腕ごとの平均報酬を調べ、その後は平均報酬最大の腕を引き続ける。
ただこれだと、本来平均報酬の高いはずの腕が運悪く低かった場合に、2度と引かれなくなってしまう。
1.1.4. ε-greedyアルゴリズム
まずは全ての腕で一回回す。確率εで全ての腕からランダムに1つ選ぶ。確率1−εで、これまでの報酬平均が最大の腕を選ぶ。利用と探索を織り交ぜていく。
利用と探索を織り交ぜている。
1.1.5. 不確かな時は楽観的に
期待値に不確実性がある時はその不確実性の範囲の中で、大きい期待値を仮定すべき(楽観的に見積もるべき)。低く見積もってしまうと、選ばれなくなり、その選択肢の期待値を修正することができなくなる。
不確かさは、学習の開始時に大きく、試行を繰り返すたびに減少していくので、学習の初期は探索に重点が置かれ、後期になると利用に重点が置かれることになる。
楽観的期待値法(よくわからない)
学習前に、各腕から報酬の最大値をK回観測していた、という形で各腕の価値の楽観的な期待値を見積もる。観測回数が増えれば、この値は真の期待値に近づいていく。学習中の報酬の結果による、腕の選択への影響を減らしている?どの腕も実際の期待値より高くなるから、全ての腕が真の期待値に近づくまでに、どの腕も1度は期待値最大となることができる、ということかな。
UCB1アルゴリズム
報酬の期待値に、信頼区間の幅の半分を加算している。不確実性の中でできる限り楽観的な見積もりを元に、選択肢を決定することを意味する。
1.1.6. 多腕バンディット問題の学習の例
UCBアルゴリズムは長期的には得られる報酬を最大化することができる。しかし探索を重視しているため、少ない試行回数ではε-greedyアルゴリズムに負ける。