混雑環境下における軌跡推定の研究をICRA2023で発表します

Published in

OMRON SINIC X (JP)

7 min readMay 24, 2023

オムロンサイニックエックスシニアリサーチャーの西村です。

OSXと京都大学（西野研究室）との共同研究成果である混雑環境下における自己位置推定の研究が IEEE Robotics and Automation Letters(RA-L) へ採録されました。本成果はInternational Conference on Robotics and Automation (ICRA) 2023 のオーラルセッションで発表します。

Mai Nishimura, Shohei Nobuhara, Ko Nishino, “ViewBirdiformer: Learning to recover ground-plane crowd trajectories and ego-motion from a single ego-centric view”, IEEE Robotics and Automation Letters (RA-L), 2022, to be presented at IEEE International Conference on Robotics and Automation (ICRA), 2023 [paper]

混雑環境下におけるロボットナビゲーション

混雑した展示会や駅構内など、人が介在する環境におけるモバイルロボットの自律移動は未だ困難な問題です。

従来の Visual SLAM に代表される画像センサを用いた自己位置推定では、静止した特徴点を複数視点から観測することでカメラ位置及び特徴点の3D位置を幾何拘束によって復元します。しかし混雑環境においては特徴点の安定した検出・追跡が困難であるため、SLAMによる自己位置推定及び地図構築が容易に破綻することが知られていました。

動的な参照点のみを用いた位置推定 [IJCV’23,BMVC’21]

そのような極めて混雑した環境においても対応可能な自己位置推定の枠組みを実現するため、我々は View Birdification [IJCV’23,BMVC’21] というタスクを新たに定義しました。これは、一人称視点で観測された歩行者の動き情報のみから、俯瞰視点における観測カメラ及び周辺歩行者の移動軌跡を同時復元するタスクです。従来の幾何学的位置推定の枠組みとは異なり、静的な特徴点の観測を必要としないため、混雑した環境においても観測カメラと歩行者位置を復元することができます。但し、従来の解法は群衆の運動モデルを予め仮定するほか、カメラ位置・歩行者位置を交互に最適化する必要があり、計算コストが高く、適用シーンが限られていました。

学習によるカメラ運動と歩行者軌跡の同時復元

混雑環境下において観測カメラ・歩行者の位置推定を行うには、一人称視点の動きの観測のみから視点変換、カメラ軌跡の復元、歩行者の運動モデルの推定という3つの複雑に絡み合った問題を解決する必要があります。

本研究では、このような混雑環境下における観測カメラ運動及び歩行者の移動軌跡の復元のため、①視点変換、②カメラ軌跡の推定、③運動モデル学習をデータ駆動に同時学習する方法を考案しました。

具体的には図1に示すように、一人称視点の動き情報を入力とし、俯瞰視点上でのカメラ軌跡及び歩行者軌跡を同時に推定する Transformer ベースのアーキテクチャ、ViewBirdiformerを提案しました。

ViewBirdiformer

Transformer はトークンと呼ばれる入力系列に対して、系列の自己相関、或いは別の系列との交差相関を注意機構（Attention Mechanism）によって算出し、学習可能な重み行列をかけ合わせてターゲットの系列に変換するアーキテクチャです。本研究では各トークンを歩行者それぞれの動きとして入力し、歩行者間の相互作用 = 運動モデルを同時学習しながら非線形変換によってカメラ運動と歩行者移動軌跡に分解する手続きを Attention を用いて統一的に記述することで、高速な推論を実現しています。

更に詳細な技術内容は以下発表動画をご覧ください。

ICRA2023 Presentation Video

インターンの募集

オムロンサイニックエックスでは、通年でロボティクス、機械学習、コンピュタービジョン、HCI分野における幅広いプロジェクトについてインターンを募集しています。皆様のご応募をお待ちしています。

インターンの募集（通年） | OMRON SINIC X Corporation

Post based on:
Mai Nishimura, Shohei Nobuhara, Ko Nishino, “ViewBirdiformer: Learning to recover ground-plane crowd trajectories and ego-motion from a single ego-centric view”, IEEE Robotics and Automation Letters (RA-L), 2022, to be presented at IEEE International Conference on Robotics and Automation (ICRA), 2023 [paper]
Relevant Project:
Mai Nishimura, Shohei Nobuhara, Ko Nishino, “View Birdification in the Crowd: Ground-plane Localization from Perceived Movements”, International Journal of Computer Vision (IJCV), 2023, [paper]
Mai Nishimura, Shohei Nobuhara, Ko Nishino, “View Birdification in the Crowd: Ground-plane Localization from Perceived Movements”, British Machine Vision Conference (BMVC), 2021
Mai Nishimura and Ryo Yonetani, “L2B: Learning to Balance the Safety-Efficiency Trade-off in Interactive Crowd-aware Robot Navigation”, In Proc. IROS, 2020. [arXiv][site]