[ RL ] CS 294: Deep Reinforcement Learning —(1) Introduction and course overview

바벨파이 스터디 노트 (딥강화학습 기초)


스터디 인트로

“무림에 총이 풀리고 있다”
  • 기업 내부에 공유되던 기술들이 개방, 공유되고 있음
  • 과거 머신 러닝 : 
    -feature를 뽑는 것, Input을 잘 넣어주는 것이 궁금했음
    -따라서 도메인 지식이 중요했음
  • 현재 : 
    -일반인이 알고리즘 내부를 개선하는 것은 사실상 불가능
    -이젠 feature도 스스로 뽑아줌 (딥러닝)
  • 머신러닝의 종류 
    -지도학습 / 비지도학습 / 강화학습
  • CNN이나 NLP와 달리 강화학습은 어디에 써야하지? 이런 상태. 베팅
  • 총은 다들 들고 있는 상태 하지만 아직 쏴보지 못한 상태
  • 쏴본 사람이 고용되거나 먼저 고용된 사람들이 많이 쏴보게 되는 상황
  • 3년 전에는 R은 한다는 것만으로 빅데이터 팀장이 되었던 시절이 있었음
  • 텐서플로우가 닫히고, 강화학습이 닫히고, 계속 닫히고 또 닫힌다.
  • 컴퓨터 공학이 아닌 다른 분야에서는 그래도 활용 될 수 있다.
  • 결국 기본 개념 그리고 수학이 베이스가 된다. 알아두면 도움이 된다.
  • 가장 어려운 것은 인풋과 아웃풋을 조정하는 것
  • 강화학습은 우선은 투자의 개념이다.

INTRODUCTION

세 명의 강사가 각각 인트로덕션을 진행하였다.

1. Levine

이 수업에서 다루게 될 내용들
  • 인간의 뇌는 모듈로 이루어짐. 각 기능을 수행함
  • 한편으로는 상호 연결되어 있는 특징을 지님
  • 시각, 청각, 후각 등으로 나누어지는 것
  • 코드화하기에는 굉장히 여전히 복잡하다.
  • 학습은 지능의 큰 부분을 차지한다
  • 학습의 메카니즘을 이해하는 것이 곧 좋은 성능의 지능을 만드는 것
2가지 관점
  • each module이냐, single flexible algorithm 이냐? 두 가지 관점

인공 지능의 조건

  • 풍부한 감각 인풋을 처리하는 것 (high-dimensional)
  • 다양한 반응중에 아웃풋을 선택하는 것
  • deep : high dimensional input에 효과적 (input)
  • 강화학습 : choosing good action (output)

DL & RL이 잘 작동하는 경우

  • 단순한 룰이 있는 경우 ( 바둑, 벽돌깨기 )
  • robotics
  • 사람의 행동을 모방하는 경우
  • 강화학습의 경우 제너럴한 영역에 적용될 수 있지만 알고리즘을 돌리기 위한 조건들을 설정해주는 것이 까다로움 (?)

2. Schulman

  • 강화학습은 일련의 행동에 대한 것
  • Agent가 reward를 극대화하기 위해서 environment에 반응함
  • 비지니스 분야에 강화 학습을 적용할 때의 각 요소 (관찰, 행위, 보상)

강화학습와 ML과의 차이점

  • X(t-1) 과 같이 이전 상황을 고려한다는 것
  • 즉, 인풋이 이전 액션에 영향을 받음

3. Finn

  • 벽돌깨기에서는 벽돌을 깰 때마다 보상을 받지만
  • 현실 세계에서 인간은 매 행동에 보상을 받지 않는다.
  • 강화학습에서 가장 어려운 것은 reward를 지정해주는 것
  • 현실상에서는 reward를 잘 지정해주어야 함
  • 따라서 강화하습은 보상을 어떻게 넣느냐의 문제 때문에 domain 지식을 일정정도 필요로 한다.
  • 1번은 모방, 추론에 대한 것 같다. 
    - 아이가 어른의 행동을 모방
    - 물 따르는 로봇
  • 2번은 예측에 대한 것 같다.
  • 3번에 대한 설명 : 이성과 대화했을 때의 기분이 좋아지는 것처럼 즉각적인 보상이 아닌 것도 학습에 반영되어야 한다는 것 (주변 환경)
    - 보상을 주는 이벤트는 현실에선 굉장히 드물다. 
    - 꿈? 소소한 보상을 증폭시키는 역할하기도 함 ( 한 연구에 따르면 ) 
    - multiple tasks can aid in representation learning
    - know there are properties relevant to task and predict those properties

정리

  • 봄학기에 해외에서 진행되는 강의를 함께 듣는 것이 흥미롭다.
  • 영어는 잘하지는 못하여도 거부감이 없을 정도면 충분한 것 같다.
  • 한국과 달리 학생들이 질문을 참 많이 한다.
  • 스터디 인트로에 “무림에 총이 풀리고 있다”는 말이 인상깊었다.

— 
CS 294: Deep Reinforcement Learning, Spring 2017
http://rll.berkeley.edu/deeprlcourse/