[Mediapipe] Hands 操作實戰：用手勢操控電腦(下)

ChunJen Wang

Published in

jimmy-wang

8 min readMay 27, 2021

本篇記錄運行 Mediapipe 成果的小筆記。

Reference: Google 官方MediaPipe說明文件

Slides:

Project Demo影片：

那麼就開始介紹吧。

一、環境建置

首先，要先有python運行環境，這部分有相當多的人介紹，可以尋找適合自己的IDE，進行開發與測試。

安裝套件

主要需要的套件如題所述，要有mediapipe。
(OpenCV, numpy, Pandas, matplotlib, Keras, scikit-learn等依需求安裝。)

# 於cmd或已建立環境中，安裝套件
pip install mediapipe# 於開發環境導入套件
import mediapipe as mp

產出概覽

這篇文章只會提到概要的內容，如果對完整資訊有興趣可以到github上。
主程式是 app_3000.py，模型檔見 model資料夾內容。

最終建立Model的hdf5與tflite檔(後者適合放入嵌入式裝置，例如樹莓派RaspberryPi)，結合執行檔，進行手勢判斷。

其後可以疊加的功能就相當豐富了，主要可以透過PyAuto、PyAutoGUI(後者比較新，且相對有持續更新) 來操控滑鼠、鍵盤，或是再進一步開發到硬體裝置上，讓其應用更加廣泛。

功能參考如Microsoft Research的Project Prague — Demos

透過手勢操控電腦，可以選轉角度、放大縮小、抓取物件等等。

或是以Youtube平台本身有許多快捷鍵，只要將手勢結合到快捷鍵操控，就可以實踐手勢YT控制器。

『 YouTube快捷鍵』不會用就落伍了！別再傻傻點齒輪啦！Source: 電獺少女編輯屋

二、透過Hands擷取資料。

如同上篇介紹，每一隻手會有21個landmarks。

我們將根據這些資料進行應用開發。

max_num_hands為手的最大偵測數量，1為最多偵測1隻手，2是2隻手，先進畫面先辨識。
min_detection_confidence 直接帶入default 為0.5 。
min_tracking_confidence 直接帶入default 為0.5 。

# 進行手部資料辨識，並抓取手的20個點資料
mp_hands = mp.solutions.hands
 hands = mp_hands.Hands(
 static_image_mode=use_static_image_mode,
 max_num_hands=1,
 min_detection_confidence=min_detection_confidence,
 min_tracking_confidence=min_tracking_confidence,
 )

資料撈出後，就是鏡頭畫面、資料存取與進行訓練的功夫了。

三、鏡頭畫面

以一個基本的畫面擷取來說，當我們要用筆電鏡頭來做為資料input，可以透過OpenCV的函式來達成，當然也需要計算fps，來判斷目前硬體運行的效率。

特別注意VideoCapture()，帶入不同參數代表的意義。

0 : 默認為筆記本上的攝像頭(如果有的話) / USB攝像頭 webcam
1 : USB攝像頭1
2 ：USB攝像頭2，依此類推。
-1：代表最新插入的USB設備cap = cv2.VideoCapture(0)

import cv2
import time
import oswCam, hCam = 640, 480# 注意VideoCapture的裝置編號
cap = cv2.VideoCapture(0)
cap.set(3, wCam)
cap.set(4, hCam)# 建立計算fps機制
pTime = 0
while True:
 success, img = cap.read() 
 cTime = time.time()
 fps = 1 / (cTime — pTime)
 pTime = cTimecv2.putText(img, f’FPS: {int(fps)}’, (400, 70), cv2.FONT_HERSHEY_PLAIN, 3, (255, 0, 0), 3)
 cv2.imshow(“Image”, img)
 
 # 按 q 離開應用(app)
 if cv2.waitKey(1) & 0xFF == ord(‘q’): 
 break