Magic Leap による セマンティクス(前編)
この記事は、Magic Leap Advent Calendar 2020 の20日目です。
この記事について
Magic Leap 1 のオブジェクト認識(Object Recognition)が、どういう風に実現しているのか?について、まとめた記事になります。
オブジェクト認識(Object Recognition)について、あまりご存知でない方や参考となる記事を以下に掲載させていただきます。
当記事は以下の方々が執筆したスライドが元になっています。(作成者には許可を頂いています。)
作成者:
Senior Manager, Computer Vision at Magic Leap / Prateek Singhal
Principal Computer Vision Researcher/Engineer at Magic Leap / Siddharth Choudhary(今はApplied Scientist at Amazon Lab126)
なぜ、セマンティクスなのか?
スマートアシスタント (MICA)
リモートコラボレーション
インテリジェントゲームプレイ
Magic Leap による セマンティクス とは?
- 方向付けられたバウンディングボックス
2. セマンティクスな平面サーフェース
3. オブジェクトメッシュ
Magic Leap による セマンティクス
・空間コンピューティングのためのセマンティクスアンダースタンディングは、3D、永続性、マルチモーダルにあります。
・セマンティクスは以下のように分類できます。
● オブジェクト認識
● シーン アンダースタンディング
・オブジェクト認識とは、シーン内の物体との相互作用やインテリジェンスを指します
・シーン アンダースタンディングは、シーンのセマンティクスを理解する機能です。
Magic Leap による オブジェクト認識
・オブジェクト認識は、ユーザー中心のオブジェクトとインタラクションに焦点を当てています。
・すべてのオブジェクトは、少数の高品質オブジェクトほど関連性がありません。
オブジェクトの相互作用
ゲームアセットを交換して、幾何学的な妥当性を維持しながらテーマを変更します。
Magic Leap による シーン アンダースタンディング
シーン アンダースタンディングとは、シーンのセマンティクスを識別する機能のことです。
・ モノやオブジェクトが含まれます。
次のようなシーンのセマンティクスを区別できます。
・ 部屋のレイアウト
・ ライトニング
物質理解に関する物体物理学
空間コンピューティングにおけるセマンティクスの主な特徴
・計算量、消費電力に制限があります。
・固定帯域幅とメモリ
・複数のデータソース/センサー。
・屋内シーンは難しい。
・完全性とレイテンシーのトレードオフ。
マルチユーザー、時間の経過、環境の生成
概要:オブジェクト認識のパイプライン
・デバイスからクラウドまでの完全なエンドツーエンド・パイプライン・シミュレーションを構築し、オブジェクト認識を検証。
・このパイプラインを評価フレームワークに接続し、エンドツーエンドのメトリクスを取得。
どのようにしてセマンティクスするのか?
屋内シーンの理解における課題
公開されているデータセットには複数の問題があります。
・データセットにはラベルノイズが含まれています。(例:ソファ/カウチ)
・データセットには、地理/所属/タスクのバイアスが含まれています。(例:アメリカ人とヨーロッパ人のアパート)。
・現在、大規模なCVデータセット(例:KITTI、NuScenes、Mapillary Vistas)では、屋外のシーンが主流となっています。
・Ground Truth では、オブジェクトのダイナミクス、シーンライティング、オブジェクトスケールの変化の分布をうまく取るのは難しい。
COCO データセット
+ インスタンスごとの2Dオブジェクト検出とセグメンテーションを含みます。
+ 画像は、自然界の様々なセンサーからリアルな設定で撮影されています。
― 3Dアノテーションなし
― クラスの不均衡
ScanNet データセット
+3Dオブジェクトの検出、各インスタンスのセグメンテーションが含まれています。
+各フレームのポーズを収録しています。
―ラベリングの品質は、ポーズと再構成されたメッシュの品質によって制限されます。
―データは1つのセンサー(構造センサー)のみで収集されます。
― クラスの不均衡
合成データセット
公開データセットの問題点に対応するために、合成データセットの構築を行っています。
+3Dオブジェクトの検出、各インスタンスのセグメント化が含まれます。
+各フレームのground-truthポーズが含まれます。
+シーンのgroundtruthメッシュが含まれます。
+注釈は完璧です。
+クラスの不均衡に対処可能。
+さまざまな深度センサーのシミュレーションはそれほど難しくありません。
―フォトリアリスティックRGBセンサのシミュレーションは簡単ではありません。
―リアルなシーンのモデリングには時間がかかります。
後編
後編は下記の記事になります。
Magic Leap Meetup vol.2
2020年12月17日(木)19時~22時にオンラインで開催されたMeetupの動画がYouTubeにアップしています。まだ、ご覧になられていない方は、是非、見て頂きたいです!
Magic Leap Meetup vol.2 in Japanのアンケートを受け付けています。感想や要望などございましたら、ご回答いただけますと大変嬉しいです。
ARの企画・開発に関するご相談など
私が勤めている会社ではARの企画や開発を行っています。何かございましたら以下のお問い合わせフォームにてご相談いただければと思います。