転移強化学習に関する研究がIJCAI’20に採録されました

Ryo Yonetani
OMRON SINIC X (JP)
Published in
May 8, 2020

弊社で実施していた転移強化学習に関する研究が、International Joint Conference on Artificial Intelligence (IJCAI)に採録されました!IJCAIはAI分野における最難関国際会議の一つで、本年度は採択率12.6%(592 /4717本)と非常に競争的でした。本研究はドイツTechnical University of Munichからのインターン Mohammadamin Barekatain さんとの成果です。

本発表はメイントラックのセッション [Machine Learning] Reinforcement Learning 1/3 (18:00–19:20 JST, Jan. 13) で発表予定です。

研究の概要

本技術の詳細(英語)はこちらからもご覧になれます。

強化学習とは機械学習の一種であり、工場における産業ロボットの制御やモバイルロボットの自動操縦など、さまざまな場面での活用が期待されています。強化学習の目的は、ある環境で与えられたタスクを成功させるために「この状態のときはこう行動しよう」というルール(方策)を学習することです。しかし方策の学習はしばしば難しく、ある環境で頑張って獲得した方策が似たような別の環境では全く使えない、という問題もしばしば起こります。とはいったものの、多様な環境それぞれについて一から方策を学習するのも大変です。

そこで、ある環境で得られた情報を活用することで、別の環境における方策の学習を手短にしたいと考えます。これが転移強化学習の基本的なモチベーションであり、転移元・転移先の環境がどのように異なるか、転移元のどのような情報が使えるかによって、異なるアプローチが取られます。

特に本研究では、

  1. 転移元の環境が複数あり、それぞれ状態変化のルール(=環境のダイナミクス)が異なる
  2. しかし、転移元のダイナミクスは未知で、そこで獲得された方策しか提供されない

という条件を対象とした転移強化学習手法を開発しました。ダイナミクスが異なる環境間での転移を実現するために、既存研究の多くは「転移元環境のダイナミクスが既知である」「転移元環境での状態・行動のサンプルが収集可能である」といった条件が必要でした。一方で、現実のロボティクス課題において環境のダイナミクスを把握することは必ずしも容易ではなく、また状態・行動サンプルが保存されていないということも起こりえます。したがって、上の2. に述べたような条件が重要になります。

これに対して我々は、「転移先環境でのタスクパフォーマンスが高まるように、転移元方策を適応的に統合する」ための方策モデルを提案しました。提案モデルは非常にシンプルな構成でありながら、様々な種類の強化学習環境に適用可能であり、また既存の強化学習アルゴリズムによって学習することができます。論文中では、歩行ロボットや月面着陸などいくつかのシミュレーション実験によって提案手法の有効性を確認しました。

ダイナミクスの異なる環境の例: 足の長さが異なる歩行ロボット

今後の展望

本研究によって実現できる「未知かつ異なるダイナミクス間の転移」は、以下のような場面への応用が期待できます。

  • 異なる重さや長さの部品を掴むロボットアームの方策を複数活用して、未知の部品を掴む方策を短時間で学習
  • 異なる路面状況を走行するモバイルロボットの方策を複数活用して、未知の路面を走行する方策を学習

また我々は、以前よりモデル統合によってAIの性能を高める非集中環境学習の枠組みについての研究に取り組んでいます。本成果はこのような枠組みの中で強化学習を実現する一つのアプローチであり、拠点間での頻繁なデータのやりとりが難しい製造分野等への技術展開を目指すものです。弊社ではこのような強化学習のアルゴリズム開発およびロボティクス分野での活用、さらには関連する事業機会の模索を引き続き進めていきます。

  • インターンに興味のある方: CV/ML, Robotics
  • 事業的なコラボレーションに興味のある方: こちら

--

--

Ryo Yonetani
OMRON SINIC X (JP)

Research Scientist at CyberAgent AI Lab. Ex-Principal Investigator at OMRON SINIC X, Japan