강화학습을 활용한 Applications 소개

Hugman Sangkeun Jung
24 min readJul 2, 2024

--

(You can find the English version of the post at this link.)

강화학습 기술은 머신러닝 기술들 중에서 상대적으로 일상생활에 녹여내기 어려운 기술 들 중 하나였습니다. 하지만 최근에는 다양한 분야에 강화학습이 적용되면서 기계가 사람이 가볼 법한 길들을 미리 탐색해주는 역할을 여러분야에서 실현해 나가고 있습니다.

이번 글에서는 간단히 강화학습이 기본에 대해 리뷰한 후 각 분야별 사레들을 살펴보겠습니다.

강화학습의 실세계 응용: 이론에서 현실로

인공지능의 발전은 우리 일상의 모든 면을 변화시키고 있습니다. 그 중에서도 Reinforcement Learning (RL)은 특히 주목할 만한 분야입니다. RL은 AI 에이전트가 시행착오를 통해 학습하는 방식으로, 인간의 학습 과정과 유사하다는 점에서 큰 관심을 받고 있습니다.

강화학습의 간단한 복습

RL의 기본 개념은 간단합니다. 에이전트는 환경과 상호작용하며, 특정 행동을 취할 때마다 보상이나 벌점을 받습니다. 이 과정을 반복하면서 에이전트는 최대의 보상을 얻는 전략을 학습합니다.

주요 구성요소는 다음과 같습니다:
1. 에이전트 (Agent): 학습하고 결정을 내리는 주체
2. 환경 (Environment): 에이전트가 상호작용하는 세계
3. 상태 (State): 현재 상황에 대한 정보
4. 행동 (Action): 에이전트가 취할 수 있는 선택들
5. 보상 (Reward): 각 행동에 대한 피드백

이러한 구조를 통해 RL은 복잡한 문제를 해결하고 장기적인 전략을 수립할 수 있습니다.

Reinforcement Learning — Problem Settings (Image by the author)

실제 세계에서의 RL 적용 중요성

RL의 실제 응용은 이론적 가능성을 현실로 바꾸는 중요한 단계입니다. 몇 가지 주요 이유를 살펴보겠습니다:

  • 복잡한 문제 해결: 실세계의 많은 문제들은 명확한 해답이 없고 변수가 많습니다. RL은 이런 복잡한 상황에서 최적의 해결책을 찾는 데 탁월합니다.
  • 지속적인 학습과 적응: RL 시스템은 환경 변화에 따라 지속적으로 학습하고 적응할 수 있어, 동적인 실제 환경에 적합합니다.
  • 자동화와 효율성: 많은 산업 분야에서 RL을 통한 자동화로 효율성을 크게 높일 수 있습니다.
  • 새로운 통찰력 제공: RL 알고리즘은 때로 인간이 미처 생각하지 못한 해결책을 제시하여 새로운 관점을 제공합니다.
  • 경제적 가치 창출: 성공적인 RL 응용은 비용 절감, 생산성 향상 등 큰 경제적 가치를 만들어냅니다.

이 글에서 우리는 RL이 게임, 로보틱스, 에너지, 파운데이션모델과의 연계 등 다양한 분야에서 어떻게 혁신을 이끌고 있는지 살펴보겠습니다. 각 분야의 대표적인 사례를 통해 RL의 실제 영향력과 미래 발전 가능성을 살펴보겠습니다.

게임분야에서의 강화학습

이미 알파고를 통해 전략게임에서 강화학습이 얼마나 성공적인 결과를 내놓을 수 있는지 딥마인드라는 회사가 잘 보여주었습니다. 딥마인드는 그 이후 실시간 전략 시뮬레이션 게임인 스타크래프트2에서도 강화학습이 성공적으로 적용된다는 것을 보여주었습니다.

스타크래프트 같은 게임이 바둑보다 더 어려운 task임은 아래의 차이를 통해 알 수 있습니다:

  • 불완전한 정보 (Imperfect Information) : 스타크래프트에서는 ‘전장의 안개’로 인해 상대방의 모든 행동을 볼 수 없습니다. 이는 바둑에서 모든 돌의 위치를 항상 알 수 있는 것과 대조적입니다.
  • 실시간 의사결정 (Real-time Decision Making): 바둑이 턴제 게임인 반면, 스타크래프트는 실시간으로 진행됩니다. 이는 AI가 매 순간 빠르게 결정을 내려야 함을 의미합니다.
  • 거대한 행동 공간 (Enormous Action Space): 스타크래프트에서는 수많은 유닛을 개별적으로 통제해야 하며, 각 유닛마다 다양한 행동이 가능합니다. 이는 바둑의 행동 선택지보다 훨씬 복잡합니다.
  • 장기적 전략과 단기적 전술의 조화 (Long-term Strategy vs Short-term Tactics): 게임에서 승리하기 위해서는 장기적인 경제 관리와 군사 전략, 그리고 즉각적인 전투 전술을 모두 고려해야 합니다. 이는 바둑보다 더 복잡한 의사결정 구조를 요구합니다.
  • 복잡한 인터페이스와 다중 제어 (Complex Interface and Multi-tasking): 스타크래프트에서는 카메라 위치 조정, 유닛 선택, 건물 배치, 생산 명령 등 다양한 조작을 동시에 수행해야 합니다. 이는 단순히 돌을 놓는 바둑과는 차원이 다른 조작 난이도를 요구합니다. AI는 이러한 복잡한 인터페이스를 효과적으로 다루면서 동시에 전략적 결정을 내려야 합니다.
  • 등등.
AlphaStar Game Play (Image from link)

이러한 복잡성에도 불구하고 AlphaStar는 스타크래프트 II에서 최고 수준의 인간 플레이어를 능가하는 성과를 보여주었습니다. 이는 강화학습이 매우 복잡하고 동적인 환경에서도 효과적으로 적용될 수 있음을 증명하는 중요한 사례입니다.

그럼 스타크래프트2 의 게임과 강화학습을 연결시킬 수 있을까요?

AlphaStar와 RL의 구성요소

  • 에이전트 (Agent): AlphaStar 자체가 에이전트로, 게임 내에서 유닛을 제어하고 전략을 수립합니다.
  • 환경 (Environment): 스타크래프트 II 게임 세계가 환경입니다. 이는 동적이며 불완전한 정보를 포함합니다.
  • 상태 (State): 게임 내 모든 유닛의 위치, 자원 상태, 적의 행동 등이 포함됩니다. AlphaStar는 인간 플레이어와 동일한 인터페이스를 통해 이 정보를 얻습니다. 이는 미니맵, 메인 화면, 자원 정보 창 등을 포함합니다. 또한 ‘전장의 안개’로 인해 가려진 부분의 정보는 얻을 수 없어, 인간과 동일한 정보 제한을 가집니다.
  • 행동 (Action): 유닛 생산, 이동, 공격 등 게임 내에서 가능한 모든 명령이 행동에 해당합니다. AlphaStar는 초당 약 180의 행동을 수행할 수 있습니다. 프로게이머의 경우 APM(Actions Per Minute, 분당 행동 횟수)이 주로 300–400 정도입니다. 즉, 초당 5–7번의 행동을 수행합니다. AlphaStar의 180 APM은 인간의 능력 범위 내에 있으며, 이는 공정한 비교를 위해 의도적으로 제한된 것입니다.
  • 보상 (Reward): 게임의 승패, 자원 획득, 유닛 파괴 등이 보상으로 작용합니다. AlphaStar는 이를 통해 효과적인 전략을 학습합니다. 예를 들어, 긍정적 보상으로는 게임 승리 (+1), 적 건물 파괴 (+0.2), 자원 채굴량 (광물 1000당 +0.1) 등이 있을 수 있습니다. 반면 부정적 보상으로는 게임 패배 (-1), 아군 유닛 손실 (유닛 공급량당 -0.05) 등이 있을 수 있습니다. 이러한 보상 체계를 통해 AlphaStar는 장기적인 승리 전략과 단기적인 전술적 이득을 모두 고려하게 됩니다.

AlphaStar가 거둔 성과

AlphaStar는 여러 단계에 걸쳐 발전하며 인상적인 성과를 거두었습니다.

  1. 초기 버전 (2019년 1월):
    - TLO와 MaNa라는 프로 게이머를 상대로 각각 5–0으로 승리했습니다.
    - 그러나 이 버전은 전체 게임 맵을 한 번에 볼 수 있는 등의 이점이 있어 완전히 공정한 조건은 아니었습니다.
  2. AlphaStar Mid (2019년 7월):
    - 인간과 더욱 유사한 조건에서 경기를 진행했습니다.
    - 유럽 서버의 상위 0.2% 플레이어들을 상대로 경쟁했습니다.
    - 세 개의 스타크래프트 II 종족(테란, 프로토스, 저그) 모두를 플레이할 수 있게 되었습니다.
  3. AlphaStar Final (2019년 10월):
    - 그랜드마스터 레벨(상위 0.2%)의 플레이어들을 상대로 경쟁했습니다.
    - 모든 종족에서 그랜드마스터 수준의 실력을 보여주었습니다.
    - 99.8%의 인간 플레이어보다 높은 순위를 기록했습니다.

AlphaStar의 발전 과정은 강화학습 AI가 복잡한 실시간 전략 게임에서도 최고 수준의 인간 플레이어와 경쟁할 수 있음을 보여주었습니다. 또한, 각 버전별로 더욱 공정한 조건에서 경쟁하도록 개선되어, AI와 인간의 공정한 비교가 가능해졌다는 점에서도 의미가 있습니다. AlphaStar Mid 단계에서부터는 사람과 완벽하게 동일한 조건(카메라 시점, APM, 지연시간적용, 인터페이스 동일화, 관찰제한 등)에서 게임을 진행했습니다.

A visualization of the AlphaStar agent during game two of the match against MaNa. (Source link)

AlphaStar의 의미

AlphaStar의 성공은 다음과 같은 중요한 의미를 지닙니다:

  1. 복잡한 RTS 게임에서의 RL 적용: 스타크래프트 II와 같은 복잡하고 동적인 RTS 게임에서도 RL이 효과적으로 적용될 수 있음을 보여주었습니다.
  2. 불완전한 정보 처리: 게임의 모든 정보를 알 수 없는 상황에서도 효과적인 의사결정이 가능함을 증명했습니다.
  3. 장기 전략과 실시간 전술의 조화: 장기적인 전략 수립과 실시간 미시 조작을 동시에 수행할 수 있는 AI의 가능성을 보여주었습니다.
  4. 일반화 능력: AlphaStar는 다양한 전략과 상황에 대응할 수 있는 일반화 능력을 보여주었습니다.

향후 전망

AlphaStar의 성공은 게임을 넘어 복잡한 실제 세계의 문제에 RL을 적용할 수 있는 가능성을 보여줍니다. 군사 전략, 물류 관리, 도시 계획 등 복잡한 의사결정과 장기 전략이 필요한 분야에서 이러한 기술이 활용될 수 있을 것으로 기대됩니다.

로보틱스에서의 강화학습 활용

로보틱스에서의 강화학습 활용로보틱스 분야에서 강화학습(RL)의 적용은 지속적으로 발전하고 있습니다. 특히 컴퓨터 그래픽스 같은 시뮬레이션 환경에서의 로보틱스에 관련된 연구 사례는 너무도 많습니다.

본 포스트에서는 시뮬레이션환경만이 아닌 실제 세계에서의 로보틱스 문제에 강화학습이 적용된 사례에 대해 소개하도록 하겠습니다.

가장 대표적인 사례는 바로 최근 매우 공격적으로 로보틱스 사업을 진행하고 있는 Tesla Optimus 프로젝트입니다. Tesla의 경우 논문이나 공개보고서를 통해 자세한 알고리즘을 공개하고 있지는 않지만, 몇몇 인터뷰와 자료들을 보면 강화학습을 시뮬레이션 혹은 실세계환경의 곳곳에 녹여내고 있는 게 아닌가 하는 추측을 해볼 수 있습니다. 아래는 Optimus 프로젝트에 강화학습이 적용되었을 것으로 추정되는 인터뷰나 강의 영상 출처입니다.

  1. Tesla AI Day 2022 프레젠테이션:
    - 테슬라 엔지니어 Milan Kovac: “우리는 강화학습을 사용하여 로봇이 물체를 집는 방법을 학습하도록 했습니다.”
    - 출처: Tesla AI Day 2022 공식 영상 (https://www.youtube.com/watch?v=ODSJsviD_SU)
  2. Andrej Karpathy (전 테슬라 AI 디렉터) 인터뷰:
    - CVPR 2021 워크샵: “테슬라에서는 자율주행과 로보틱스에 강화학습을 적극적으로 활용하고 있습니다.”
    - 출처: CVPR 2021 워크샵 녹화본 (https://www.youtube.com/watch?v=g6bOwQdCJrc)

이러한 출처들을 종합해볼 때, Tesla가 Optimus 로봇 개발에 강화학습을 적극적으로 활용하고 있다는 것을 추정할 수 있습니다.

이에 대한 추정을 바탕으로 강화학습이 어떻게 Optimus에 적용되었을지를 추정해볼 수 있습니다. 예를 들어, 물체를 집어 올리는 작업(pick-and-place task)을 수행한다고 했을 때 이 수행하는 작업을 강화학습의 틀 안에서 어떻게 구현할 수 있을지 생각해 보겠습니다.

Tesla Optimus Gen2 (Source link)

Optimus와 RL의 구성요소

  • 에이전트 (Agent): Optimus 로봇 자체가 에이전트로, 환경을 인식하고 행동을 결정합니다.
  • 환경 (Environment): 로봇이 작업을 수행하는 실제 물리적 공간입니다. 이는 동적이며 불확실성을 포함합니다.
  • 상태 (State): 로봇의 관절 각도, 엔드이펙터의 위치, 물체의 위치와 방향, 카메라 이미지 등이 포함됩니다. Optimus는 다양한 센서(카메라, 관절 엔코더, 힘/토크 센서 등)를 통해 이 정보를 얻습니다.
  • 행동 (Action): 로봇 관절의 움직임, 그리퍼 개폐 등 물체를 집어 올리는데 필요한 모든 동작이 행동에 해당합니다. Optimus는 정밀한 제어를 위해 연속적인 행동 공간을 가질 것으로 추정됩니다.
  • 보상 (Reward): 작업의 성공 여부, 효율성, 안전성 등이 보상으로 작용할 수 있습니다. 예를 들어, 물체를 성공적으로 집어 올림 (+1), 물체를 떨어뜨림 (-0.5), 부드러운 동작 (+0.1), 에너지 효율성 (소비 전력당 -0.01) 등의 보상 체계를 가질 수 있습니다. 이를 통해 Optimus는 안전하고 효율적으로 작업을 수행하는 방법을 학습하게 됩니다.

Optimus의 의미

  1. 실제 환경에서의 RL 적용: 복잡하고 불확실한 실제 환경에서도 RL이 효과적으로 적용될 수 있음을 보여줍니다.
  2. 적응성과 일반화: 다양한 물체와 환경에 대응할 수 있는 적응성과 일반화 능력을 보여줍니다.
  3. 안전성과 효율성의 균형: 작업의 성공뿐만 아니라 안전성과 효율성도 고려한 학습이 가능함을 시사합니다.
  4. 실용적 로봇 응용: 산업 현장이나 일상생활에서 실제로 활용 가능한 수준의 로봇 기술 발전을 보여줍니다.

향후 전망

Optimus 프로젝트의 성공은 실제 세계의 복잡한 작업에 RL을 적용할 수 있는 가능성을 보여줍니다. 이는 제조업, 물류, 의료, 가정용 로봇 등 다양한 분야에서의 응용으로 이어질 수 있습니다. 또한, 인간과 로봇의 협업, 더 복잡한 작업의 자동화, 그리고 궁극적으로는 범용 인공지능 로봇의 개발로 이어질 수 있는 중요한 이정표가 될 것입니다.

에너지 관리 및 스마트 그리드에서의 강화학습 활용

에너지 관리 분야에서 강화학습의 적용은 지속적으로 발전하고 있습니다. 특히 스마트 그리드와 관련된 연구 사례가 많이 있습니다. 그 중에서도 구글-딥마인드의 데이터 센터 냉각 최적화 프로젝트는 강화학습을 에너지 절약 분야에 적용하여 긍정적 효과를 보여준 대표적인 사례입니다.

딥마인드가 에너지 문제를 바라보는 형태는 다음과 같습니다.

Schematic diagram of a water-cooled chiller plant with one chiller and one cooling tower. Note the distinct chilled and condenser water loops. (Source Link)

이 그림을 보면 몇 가지 상태와 또 에너지에 관련된 행동들이 있습니다. 간단히 정리해보면:

  1. 상태 (State):
  • 냉각수 온도 (Chilled Water Temperature)
  • 응축기 물 온도 (Condenser Water Temperature)
  • 외부 기온 (Outdoor Air Temperature)
  • 데이터 센터 내부 온도 (Indoor Air Temperature)
  • 서버 부하 (Server Load)
  • 냉각탑 팬 속도 (Cooling Tower Fan Speed)
  • 펌프 유량 (Pump Flow Rates)

2. 행동 (Actions):

  • 냉각기 설정 온도 조절 (Adjust Chiller Set Point)
  • 냉각탑 팬 속도 조절 (Adjust Cooling Tower Fan Speed)
  • 냉각수 펌프 유량 조절 (Adjust Chilled Water Pump Flow)
  • 응축기 물 펌프 유량 조절 (Adjust Condenser Water Pump Flow)

즉, 강화학습의 틀을 이용해서 상태를 살피고 우리가 원하는 방향 — 에너지 효율 최대화와 시스템 안정성 유지 — 으로 상태가 변경될 수 있도록 최적의 냉각 전략을 수립하고 실행하게 작동되는 것입니다.

이 과정에서 강화학습 에이전트는 다음과 같은 목표를 달성하기 위해 학습합니다:

  1. 에너지 소비 최소화: 냉각 시스템의 전체 에너지 사용량을 줄입니다.
  2. 온도 안정성 유지: 데이터 센터 내부 온도를 안정적인 범위 내에서 유지합니다.
  3. 장비 수명 연장: 급격한 온도 변화나 과도한 부하를 피해 장비의 수명을 연장합니다.

에이전트는 현재 상태를 관찰하고, 이를 바탕으로 최적의 행동을 선택합니다. 그 결과로 나타나는 에너지 효율성과 시스템 안정성을 보상으로 받아 지속적으로 학습하며, 이 과정을 통해 다양한 환경 조건에서 최적의 냉각 전략을 수립할 수 있게 됩니다.

이러한 접근 방식은 복잡하고 동적인 데이터 센터 환경에서 매우 효과적이며, 구글-딥마인드의 프로젝트는 이를 통해 데이터 센터의 냉각 에너지를 40%까지 절감하는 놀라운 성과를 거두었습니다.

구글-딥마인드 프로젝트와 RL의 구성요소:

  • 에이전트 (Agent): 데이터 센터 냉각 시스템 제어 AI가 에이전트로, 냉각 장치의 설정을 조절합니다.
  • 환경 (Environment): 데이터 센터 자체가 환경이며, 서버 랙, 냉각 장치, HVAC(Heating, Ventilation, and Air Conditioning) 시스템 등을 포함합니다.
  • 상태 (State): 각 지점의 온도, 전력 사용량, 서버 부하, 외부 기온 등 데이터 센터의 현재 상태 정보입니다.
  • 행동 (Action): 냉각 장치의 온도 설정 변경, 냉각수 유량 조절, 공기 흐름 방향 제어 등 냉각 시스템을 조절하는 모든 동작입니다.
  • 보상 (Reward): 에너지 효율성 향상과 안정적인 운영 온도 유지를 반영한 보상 체계입니다. 예를 들어, 에너지 사용량 감소 (+0.1/kWh), 목표 온도 범위 유지 (+1/시간), 과열 상태 (-5/발생) 등의 보상을 설정할 수 있습니다.

향후 전망

에너지 산업에서의 검증된 강화학습의 효용성, 유사 사업으로의 확장 가능성으로 인해 이 기술은 다른 데이터 센터와 다양한 산업 시설로 확장될 것으로 예상됩니다. 흔히들 말하는 산업 최적화 문제들은 크게 볼 때 위에서 강화학습이 풀어낸 형태와 거의 유사한 구조를 지니고 있습니다. 따라서 강화학습이 스마트 빌딩, 제조 공정, 물류 시스템, 에너지 그리드 관리 등의 다양한 산업 분야에서 최적화 솔루션으로 활용될 것으로 전망됩니다.

강화학습과 파운데이션 모델의 연계 사례

강화학습은 그 자체로도 매우 강력하지만, 다른 머신러닝 기술들과 연계될 때 그 파급력과 적용 범위가 더 확장됩니다. 예를 들어 최근에는 강화학습이 파운데이션 모델 (특히 자연어처리 언어모델)과 결합하여 매우 혁신적인 AI 시스템을 만들어내고 있습니다.

이러한 파운데이션 모델과의 연계는 크게 2가지 흐름으로 정리될 수 있습니다. 첫째는 “언어 모델 행동 조정을 위한 강화학습” 접근법이고, 둘째는 “다목적 AI 시스템을 위한 강화학습 확장” 접근법입니다.

각각에 대해 살펴보겠습니다.

  1. 언어 모델 행동 조정을 위한 강화학습: 이 접근법은 대규모 언어 모델의 출력을 개선하기 위해 강화학습을 사용합니다. 주로 인간 또는 AI의 피드백을 바탕으로 모델의 응답을 조정하여 안전성, 유용성, 윤리성을 향상시킵니다. 이를 통해 언어 모델의 행동을 인간의 선호와 가치에 맞게 정렬할 수 있습니다. 대표적으로 OpenAI의 InstructGPT와 ChatGPT, 그리고 Anthropic의 Constitutional AI 사례가 있습니다.
  2. 다목적 AI 시스템을 위한 강화학습 확장: 이 접근법은 강화학습을 더 넓은 AI 시스템에 통합하여 다양한 작업을 수행할 수 있는 범용 AI를 개발하는 데 초점을 맞춥니다. 이를 통해 하나의 모델로 여러 도메인의 작업을 수행하거나, 언어 모델을 사용하여 강화학습의 핵심 요소를 자동으로 설계하는 등 AI 시스템의 적용 범위와 능력을 크게 확장할 수 있습니다. 대표적으로 DeepMind의 Gato와 Nvidia의 Eureka 사례가 있습니다.

하나씩 자세하게 살펴보도록 하겠습니다.

언어 모델 행동 조정을 위한 강화학습 적용

이 접근법은 대규모 언어 모델(LLM)의 출력을 개선하기 위해 강화학습을 사용합니다. 주요 목적은 모델의 응답을 더 안전하고, 유용하며, 윤리적으로 만드는 것입니다. 이를 위해 주로 인간 피드백을 기반으로 한 강화학습(RLHF: Reinforcement Learning from Human Feedback)이 사용됩니다.

[OpenAI의 InstructGPT와 ChatGPT]
OpenAI는 GPT-3를 기반으로 InstructGPT와 ChatGPT를 개발했습니다. 이 모델들은 RLHF를 통해 다음과 같은 과정으로 개선되었습니다.
a) 지도 학습 단계: 인간 작성 예시로 모델을 미세 조정합니다.
b) 보상 모델 학습: 인간 평가자들의 선호도를 학습한 보상 모델을 만듭니다.
c) 강화학습 단계: 보상 모델을 사용해 언어 모델을 최적화합니다.

전체적인 프로세스는 다음의 그림과 같습니다.

Reinforcement Learning Workflow for Training GPT-3 with Reinforcement Learning (Source Link)

위 그림은 “Training language models to follow instructions with human feedback” 라는 OpenAI에서 강화학습을 이용한 언어모델 훈련이 어떻게 이루어지는지를 보여주고 있습니다. 대부분의 강화학습의 경우는 확실한 ‘환경’ 과 ‘보상’ 이 존재합니다. 그래서 어떤 행위를 하게 되면 그 행위가 좋은 행위인지 안좋은 행위인지를 ‘보상’을 통해 기계에게 피드백을 주는 형태입니다. 그리고 보통 이러한 피드백은 중력같은 물리환경 혹은 게임처럼 규칙이 명확할 때는 자동으로 주어집니다. 하지만 언어학습의 경우에는 ‘어떤 말이 좋은 말인지’ 판단하는 기준이 뚜렷하지 않습니다.

이를 해결하기 위해 저자들은 인간의 선호도를 학습한 reward model 을 먼저 구성합니다. 그리고 이 reward model 을 ‘고정’ 한 상태에서 마치 이 모델이 다른 강화학습에서의 피드백 모듈처럼 언어 모델의 출력에 대해 보상을 제공하도록 하여 언어모델을 최적화하는 방식으로 작동하게 되는 거죠.

이 접근법의 핵심은 다음과 같습니다:

  1. Reward Model 구축:
    - 인간 평가자들이 언어 모델의 여러 응답들 중 어떤 것이 더 선호되는지 평가합니다.
    - 이 평가 데이터를 사용하여 응답의 품질을 예측하는 reward model을 학습시킵니다.
  2. 강화학습을 통한 언어 모델 최적화:
    - 언어 모델이 생성한 응답에 대해 reward model이 점수를 매깁니다.
    - 이 점수를 보상으로 사용하여 언어 모델을 강화학습 방식으로 최적화합니다.
  3. 반복적 개선:
    - 최적화된 언어 모델로 다시 응답을 생성하고, 이를 인간이 평가하여 reward model을 개선합니다.
    - 이 과정을 반복하여 언어 모델과 reward model을 지속적으로 발전시킵니다.

이 방법의 장점은 명시적인 규칙 없이도 인간의 복잡한 선호도를 학습할 수 있다는 것입니다. 또한, reward model을 통해 대규모의 강화학습이 가능해져, 언어 모델의 행동을 효과적으로 조정할 수 있습니다.

다목적 AI 시스템을 위한 강화학습 확장

이 접근법은 강화학습을 더 넓은 AI 시스템에 통합하여 다양한 작업을 수행할 수 있는 범용 AI를 개발하는 데 초점을 맞춥니다. 예를 들어, 대규모 언어 모델(LLM)을 강화학습 시스템에 결합하거나, 다중 작업 학습 기법을 적용하는 등으로 강화학습 자체에 다른 AI 기술들을 접목해서 확장을 시도합니다.이를 통해 하나의 모델로 여러 도메인의 작업을 수행하거나, 언어 모델을 사용하여 강화학습의 핵심 요소를 자동으로 설계하는 등 AI 시스템의 적용 범위와 능력을 크게 확장할 수 있습니다. 본 글에서는 파운데이션 모델(언어모델)이 어떻게 강화학습을 더 향상시킬 수 는지 Eureka 프로젝트를 통해 살펴보겠습니다.

[NVIDIA의 Eureka 프로젝트]

2023년 NVIDIA는 매우 흥미로운 프로젝트인 ‘Eureka’를 발표했습니다. 이 프로젝트는 대규모 언어 모델(LLM)을 사용하여 강화학습의 핵심 요소인 보상 함수(reward function)를 자동으로 설계하는 혁신적인 접근 방식을 제시했습니다.

NVIDIA Eureka Project (Source Link)

자세하게 설명해보겠습니다:

  1. Eureka의 핵심 아이디어:
    - 강화학습에서 가장 어려운 부분 중 하나는 보상함수 입니다.
    - 보통 보상함수는 전문가에 의해서 설계되고, 전체 성능에 큰 영향을 미칩니다.
    - Eureka 에서는 이를 자동화합니다.
    - LLM을 사용하여 주어진 작업에 대한 보상 함수를 Python 코드 형태로 생성합니다.
  2. 작동 방식:
    a) LLM이 작업 설명을 입력으로 받아 초기 보상 함수 코드를 생성합니다. b) 생성된 코드는 강화학습 환경에서 실행되고 평가됩니다.
    c) 평가 결과를 바탕으로 LLM이 보상 함수를 개선합니다.
    d) 이 과정을 반복하여 최적의 보상 함수를 찾습니다.
  3. 주요 성과:
    - 다양한 강화학습 환경에서 인간이 설계한 보상 함수와 비슷하거나 더 나은 성능을 달성했습니다.
    - 복잡한 작업에 대해서도 효과적인 보상 함수를 생성할 수 있었습니다.
EUREKA takes unmodified environment source code and language task description as context to zero-shot generate executable reward functions from a coding LLM. Then, it iterates between reward sampling, GPU-accelerated reward evaluation, and reward reflection to progressively improve its reward outputs. (Source Link)

Eureka 프로젝트는 여러 가지로 중요한 시사점을 남겼습니다. 우선, 이 프로젝트는 강화학습의 적용 범위를 크게 확장할 수 있는 가능성을 제시했습니다. 인간 전문가의 개입 없이도 새로운 작업에 대한 강화학습 에이전트를 빠르게 개발할 수 있게 되었다는 점이 특히 주목할 만합니다. 또한, 복잡한 작업에 대한 보상 함수 설계를 자동화함으로써, 강화학습의 응용 범위를 넓히고 개발 시간을 단축할 수 있게 되었습니다. 이는 강화학습 기술의 실용성과 접근성을 크게 향상시킬 수 있는 중요한 진전입니다. 마지막으로, Eureka 프로젝트는 LLM과 강화학습의 결합이 AI 시스템 개발에 새로운 패러다임을 제시할 수 있음을 보여주었습니다.

향후 전망

강화학습과 파운데이션 모델의 결합은 AI 기술의 새로운 지평을 열 것으로 예상됩니다. 이러한 통합은 더욱 유연하고 적응력 있는 AI 시스템을 만들어낼 것이며, 복잡한 실제 문제 해결에 크게 기여할 것입니다. 특히, 자연어 처리, 로보틱스, 자율 주행 등의 분야에서 혁신적인 발전이 예상되며, 이는 우리의 일상생활과 산업 전반에 걸쳐 큰 변화를 가져올 것입니다.

결론

본 글에서는 강화학습(RL)이 다양한 분야에서 어떻게 혁신적으로 적용되고 있는지 살펴보았습니다. 게임, 로보틱스, 에너지 관리, 그리고 파운데이션 모델과의 연계 등 각 분야에서 강화학습은 그 잠재력을 유감없이 발휘하고 있습니다.

AlphaStar의 사례는 강화학습이 복잡한 실시간 전략 게임에서도 인간 수준을 넘어설 수 있음을 보여주었습니다. 이는 불완전한 정보 처리, 실시간 의사결정, 장기 전략과 단기 전술의 조화 등 실제 세계의 복잡한 문제 해결에 RL이 적용될 수 있는 가능성을 시사합니다.

로보틱스 분야에서는 Tesla의 Optimus 프로젝트를 통해 RL이 실제 물리적 환경에서 적용될 수 있음을 확인했습니다. 이는 제조업, 물류, 의료 등 다양한 산업 분야에서 로봇의 활용 가능성을 크게 높이고 있습니다.

에너지 관리 분야에서 구글-딥마인드의 데이터 센터 냉각 최적화 프로젝트는 RL이 실제 산업 현장에서 큰 경제적 가치를 창출할 수 있음을 입증했습니다. 이는 에너지 효율성 향상과 환경 보호라는 전 지구적 과제에 RL이 기여할 수 있음을 보여줍니다.

마지막으로, 강화학습과 파운데이션 모델의 연계는 AI 기술의 새로운 지평을 열고 있습니다. OpenAI의 InstructGPT와 ChatGPT, NVIDIA의 Eureka 프로젝트 등은 RL과 대규모 언어 모델의 결합이 AI 시스템의 능력을 크게 확장시킬 수 있음을 보여줍니다.

과거 강화학습이 바둑, 게임처럼 일종의 ‘닫혀진 환경’ 안에서만 연구되고 시연되었던 것에 비해, 이제는 실제 세계의 복잡하고 불확실한 환경에서도 적용될 수 있다는 가능성을 점점 많이 보여주고 있습니다.

강화학습은 탐색형 AI의 주요 도구로써 그 중요성이 더욱 부각될 것입니다. 불확실성이 높고 정답이 명확하지 않은 환경에서 최적의 해결책을 찾아내는 강화학습의 특성은, 복잡한 실제 세계의 문제를 해결하는 데 있어 핵심적인 역할을 할 것입니다.

--

--

Hugman Sangkeun Jung

Hugman Sangkeun Jung is a professor at Chungnam National University, with expertise in AI, machine learning, NLP, and medical decision support.