機器學習分類器在沈浸式環境之應用 — — 3. 手勢辨識技術

前言

QQAI
SWF Lab
May 27, 2023

--

隨著元宇宙的發展,Virtual Reality(虛擬實境)與 Augmented Reality(擴增實境)也受到越來越多的關注。當商業性 VR 頭盔的開發逐漸輕便且價格親民,VR 遊戲也遍地開花的局勢下,投入 VR 研究的學者也理所當然地增加。

而今天要跟大家介紹的技術是台灣的工業技術研究院先前開發出的肌音圖(Mechanomyography,簡稱為 MMG)手勢辨識系統,能不依賴 VR 手把實體操作遊戲。研究成果除了發表到 IEEE Sensors Journal 上,也受到多項國際獎項肯定。

這項技術很適合搭配 VR 頭盔或 AR 眼鏡使用,因此選為將機器學習技術應用到沈浸式環境這項主題的第三篇文章。

也在這裡謝謝 ExcitedMailCorn 幫我 review 這篇文章!(^○^)

現有技術

當時常用的手勢控制大多是採用影像偵測或是肌電圖(Electromyography,簡稱為 EMG)的方法達成。

影像偵測的實現方法與優缺點跟其他影像識別的應用大同小異,缺點就是當場景中人數較多或是環境干擾大(例如戶外環境陽光、紅外線強烈)時,偵測所需要的運算資源龐大,品質也備受挑戰。同時也需要考慮到相機擺放的位置,若是在 VR 場景中活動,很容易因為活動過程中身體面向的不同、或是鏡頭與手之間遇到遮蔽等原因,導致相機難以捕捉使用者現在的動作。

圖為 Microsoft 的產品 Kinect,是採用影像辨識進行手部判斷的偵測裝置。

而肌電圖簡單而言,是一種用於測量肌肉活動的技術,當肌肉收縮時,肌肉纖維產生微弱的電訊號,EMG 技術通過將表面電極附著到肌肉上,檢測並且記錄這些隨之產生的訊號,分析肌肉收縮的強度與模式,從而識別使用者的動作意圖。

肌電圖裝置示意圖,取自 Meta Quest 發佈會演示。

目前在 VR 的人機互動設備當中,有較高的比率是採用 EMG 來實現,不過 EMG 的生產成本十分高昂,準確率更只有 85% 左右。與此同時,透過肌電圖測量時,由於偵測的是電訊號,使用者一旦出汗,汗水改變肌膚的膚電電位值,就會需要重新校正模型,不適合長時間或是劇烈活動中運用。

肌音圖 MMG

而工研院這次開發出的技術,就是透過肌音圖的原理,測量手部肌肉組織在運動時,肌肉纖維的收縮與摩擦等產生的振動訊號,配合三種機器學習的演算法分析數據,判斷出使用者的手勢。

在發表的研究中採用的三種模型方法分別是 KNN(K-Nearest Neighbors)、SVM(Support Vector Machine)跟 LDA(Linear Discriminant Analysis),都是 Supervised 的學習方法,利用以上去做八種手勢的分類。

  1. KNN 是透過尋找離新特徵點最接近的 K 個鄰近特徵點各自的類別,預測這個新特徵點應該會落在哪個類別中。常應用於圖像識別、文本分類,優點是簡單,缺點是計算量龐大,對大數據和高為數據的處理效率差。
  2. SVM 是能應用在 Binary 和 Multi-class 的算法,利用尋找特徵空間裡的最佳平面,分割出不同類別的特徵點,常用的函數有知名的線性、多項式、高斯和 Sigmoid 函數,常用於圖像識別、文本分類、生物醫學,優點是效率高、對小樣本數據的泛用能力高,缺點是對大數據集和干擾多的數據環境敏感,也較難以調整出最佳參數。
  3. LDA 是透過將原始特徵空間 mapping 到較低維的子空間,最大化不同類別的特徵點彼此之前的分散度,最小化同一類別特徵點間的距離,也就是努力把他們分成各自的聚落,常常用在人臉識別和手寫識別,優點是減少特徵維度,能有效降噪,但在類別數多時效果較不佳。

同時,也採用感測器所記錄的時域特徵作為 training 時的輔助資料,最終,所有訓練模型中的最佳辨識率是 94.56%。

發表中採用的八種手勢,取自 Hand Gesture Recognition by a MMG-based Wearable Device。

這種方式的好處是感應器的成本低廉,同時也不會像影像辨識受到環境噪音的影響,即便是戶外也能順利使用,更不會因為汗水造成數據的頻繁校正。

目前開發出的系統以偵測猜拳作為例子,準確率能達到 99%。

肌音圖裝置示意,取自工業技術研究院官方網站。

往後也期待能夠延伸應用,取代 VR 遊戲時玩家還要手持控制器的不便感,或是讓配戴 AR 眼鏡的使用者不需要抬起手觸控眼鏡邊框,即能輸入命令給系統,提供更直覺的操作體驗,愈趨地貼近刀劍神域裡頭直接用單手叫出功能列表和面板的未來了對吧! (>人<;)

總結

先前發布的兩篇主題文章,一篇介紹了 Unity 裏面 Face Capture 的應用,而目前許多 VR 裝置都有內建的攝影機,像是 Oculus Quest 2,HTC VIVE Cosmos Elite 以及 PlayStation 的 VR 頭盔。當擁有面部的表情資料以後,透過肌音圖的偵測取得手部的動作資訊,就能夠重建出元宇宙裡使用者的虛擬人物,並且去掉手持操作器的異物感,能更好地貼近生活體驗。

另外一篇文章提到 Custom Dataset 的製作與 CNN 訓練,可以應用在手勢偵測的加強,也能用在檢測使用者周遭環境等創意應用。

同時,現有的 VR 遊戲與研究也有多項利用 EEG、Emotiv 等腦機介面、情緒感測的裝置,近年的發表研究中,NeRF 的 3D 建模也如火如荼地發展,例如 Nvidia 推出的 Instant-NGP,能讓一般的使用者在輕巧的設備與需求下即時渲染出 3D 模型。

透過多項技術的結合,將我們的所見現實與人體的各式資料都上傳到雲端網路,編織出真正的虛擬元宇宙,已經有越來越多樣的可能性。(距離刀劍神域又近了一步,哇苦哇苦)

References

  1. https://doi.org/10.1109/JSEN.2020.3011825
  2. https://www.itri.org.tw/ListStyle.aspx?DisplayStyle=01_content&SiteID=1&MmmID=1036233376062425763&MGID=1036737743744631053
  3. https://news.nweon.com/101462

--

--