🚧 Détection de chute à partir des points du squelette en 2D

Système simple de détection de chute : Mediapipe, OpenCV et filtre de Kalman

Published in

Wanabilini

13 min readFeb 27, 2023

Cet article fait suite à notre précédent projet, DAÏO, un tableau mural connecté pour la téléassistance de personnes âgées. Nous avons déjà présenté rapidement dans un premier article (lien ci-dessous) les caractéristiques de ce dispositif innovant qui permet notamment de détecter les chutes. Ici, nous présenterons les suites de nos avancées.

🚧 DAÏO, le tableau connecté

Un tableau mural connecté pour la téléassistance de personnes âgées

medium.com

Nous allons nous concentrer sur la méthode de détection de chute que nous avons mise en place, basée sur l’analyse des points d’un squelette en 2D.

Démonstration de notre système de détection de chute — à voir plus bas

Pourquoi le squelette en 2D ? Pourquoi pas en 3D ?

L’intérêt de concevoir un algorithme capable de détecter une chute à partir des coordonnées spatiales d’un squelette en 2D plutôt qu’en 3D réside principalement dans la simplicité de mise en œuvre de la détection en 2D. En effet, au-delà de tous ses inconvénients, la détection à partir un squelette en 2D est moins gourmande en ressources matérielles et logicielles, car on manipule moins de données, ce qui pourrait permettre une mise en place plus rapide et moins coûteuse ; et ce qui l’a rend beaucoup plus simple à implémenter qu’avec un squelette en 3D.

Tableau comparatif des avantages et des inconvénients de la détection de chute à partir des coordonnées spatiales d’un squelette en 2D plutôt que 3D — généré par ChatGPT (important de le préciser)

Cependant, il est important de noter que certes la détection en 3D peut offrir une précision supérieure dans certaines situations, mais que le choix entre la détection en 2D et en 3D dépend des exigences spécifiques de chaque application et du contexte.

Notre méthodologie de détection de chute en 2D

Un système classique de vidéosurveillance [1, 2] est composé de 3 modules :

Le module de détection : permet l’extraction des objets mobiles présents sur les images de la séquence vidéo en les séparant de l’arrière-plan. C’est une étape de traitement de bas niveau.
Le module de suivi : permet une estimation temporelle des trajectoires des différents objets mobiles.
Le module de reconnaissance : permet de reconnaître des comportements suspects et génère une prise de décision appropriée à ce comportement.

Pipeline typique d’un processus de vidéosurveillance [1]

Pour notre projet de détection de chute à partir des points d’un squelette en 2D, nous avons construit la pipeline suivante :

Pipeline de notre processus de vidéosurveillance de chute

En résumé, les étapes sont les suivantes :

Détecter les points d‘intérêt du corps
Suivre la position et l’accélération de ces points
Reconnaitre la chute en fonction de seuils de position et d’accélération atteint par ces points

À noter que ces 3 étapes cardinales structurent cet article.

1. Détection du corps en mouvement

La détection du mouvement constitue la première étape d’un système de vidéosurveillance, elle permet de détecter les objets mobiles sur la scène.

Plutôt que qu’une solution simpliste de détection de mouvement basées sur de simples différences d’images ou de soustraction de fond, pour la détection de l’objet nous avons choisi d’utiliser la bibliothèque Mediapipe pour détecter directement le corps d’une personne dans la pièce.

1.1 Détection des points de squelette par Mediapipe Pose

En effet, avec MediaPipe Pose nous pouvons détecter la pose humaine, c’est-à-dire les principaux points d’articulation du corps humain. Cette solution ML nous permet d’extraire 33 points d’articulation du corps, avec leurs coordonnées dans un repère 3D, à partir d’images vidéo RVB [4].

Pour notre projet, notre code de détection de la posture sera stocké dans le fichier PoseModule.py, dont nous explicitons les fonctionnalités dans l’article suivant :

👁️‍🗨️ Coup d’oeil sur la détection de la posture avec Mediapipe

Détecter les points d’articulations du corps à partir d’une vidéo

medium.com

Nous n’utiliserons pas la coordonnée z des points, elle ne nous intéresse plus parce que nous nous restreignons à la 2D. Par ailleurs, tous les points détectés par Mediapipe ne nous intéressent pas. Oui car, en s’inspirant du travail de Zaid Mundher & Jiaofei Zhong [8] sur la détection de chute à partir de la pose en 2D, parmi tous les points détectés, ceux qui nous intéressent vraiment pour la détection de chute sont ceux : de la tête, du centre des épaules, du centre du bassin, de la cheville droite et de la cheville gauche. Ils sont marqués en jaune sur la figure ci-dessous :

Les points d’articulations prédits par Mediapipe [4] avec nos points d’intérêts marqués en jaunes.

Dès lors que ces points d’intérêt sont détectés, il va falloir les suivre.

2. Suivi du corps en mouvement

Le suivi des objets est une étape importante dans un système de vidéosurveillance. Il consiste à faire une estimation de la position des objets mobiles dans le temps et l’espace du champ de vision afin de déterminer leur trajectoire à travers les images successives d’une séquence [3].

2.1 Suivi de la position par Mediapipe Pose

De fait, avec Mediapipe Pose c’est non seulement la détection, mais aussi le suivi de la pose corporelle qui s’opère tout le long de la vidéo.

Détection et suivi de la position des points du corps par Mediapipe (via PoseModule.py) avec nos points d’intérêts entourés en jaunes

L’image ci-dessus à été générée via les fonctionnalités de mon fichier PoseModule.py auxquelles s’ajoute la fonction suivante que j’ai crée :

drawLm : permettant de dessiner les points d’intérêts du corps sur l’image

Grâce à Mediapipe Pose, la position des points d’intérêt du corps est connue en temps réel. À cette méthode, on va ajouter quelque chose de couramment employée dans les processus de suivi : le filtre Kalman.

2.2 Suivi de l’accélération via le filtre de Kalman

À quoi sert le filtre de Kalman ? Pour faire simple, le filtre de Kalman est un algorithme de traitement de données récursif qui estime l’état x’ d’un système à l’instant t à partir des états précédents x à l’instant t-1. À chaque estimation, nous associons une mesure d’incertitude P (bruit gaussien) [5, 9].

L’état x d’un système. Ce vecteur est composé d’une position p, d’une vélocité v et d’une accélération a.

Le filtre fonctionne de manière cyclique et possède deux phases distinctes — la prédiction et correction :

Prédiction : On utilise l’état estimé pour prédire l’état et l’incertitude actuel.
Correction : On utilise les observations de nos capteurs pour corriger l’état prédit et obtenir une estimation plus précise.

Les étapes récursives du filtre de Kalman sont illustrées ci-dessous :

Etapes de l’algorithme du filtre de Kalman récursif (Source)

Voilà à quoi ressemble notre algorithme après implémentation, celui-ci sera stocké dans le fichier KalmanFilter.py :

Ainsi, l’application du filtre de Kalman dans notre projet est le suivant : à chaque instant de la vidéo, la position du point d’intérêt capté par Mediapipe Pose va venir nourrir un filtre de Kalman, et celui-ci va pouvoir donner une prédiction de l’état du point d’intérêt à l’image suivante.

On peut alors tracer la direction de l’accélération du point d’intérêt [6] — une flèche allant du point prédit (x, y) au point (x+ax, y+ay) :

On remarque que le filtre de Kalman permet de suivre un point en mouvement, en estimant sa position y compris en cas d’occultations.

Pour la suite, nous appliquerons tout simplement ce processus sur les 5 points d’intérêts du corps, en leur associant respectivement un filtre de Kalman.

3. Classification du corps en mouvement

La dernière phase d’un système de vidéosurveillance, en général, concerne l’analyse et la reconnaissance des activités ou des comportements. Dans un cas comme dans l’autre, le problème de reconnaissance peut être considéré comme un problème de classification. Il s’agit d’une opération de classification supervisée ou non supervisée.

Plusieurs outils mathématiques sont utilisés dans la reconnaissance : comme les modèles de Markov cachés, les algorithmes de recalage temporel ou encore les réseaux de neurones artificiels [1, 2]. Mais pour notre projet nous avons fait le choix d’une méthode de classification beaucoup plus simple : une méthode non supervisée basée essentiellement sur une logique de seuil.

3.1 Seuils sur la position

En effet, comme dit précédemment, nous nous sommes énormément inspirés du système mobile détecteur de chute de Zaid Mundher & Jiaofei Zhong [8] : un petit robot, relié à une caméra Kinect Sensor, qui peut détecter les chutes d’une personne âgées. Ce qui nous intéresse plus particulièrement dans leur système c’est que, lorsque le sol n’est pas visible ou détectable, l’algorithme proposé dépend du système de coordonnées spatiales du squelette 2D pour détecter les chutes ! Illustration dans la figure ci-dessous :

Méthode de détection de chute à partir du squelette 2D avec des seuils [8]

Ce qu’il faut comprendre de l’algorithme : si la coordonnée Y des 5 points d’intérêt est inférieure à un seuil donné, une chute est détectée.

Pour notre projet, il a fallu réarranger cet algorithme pour qu’il corresponde plus à nos spécificités : par exemple pour nous, l’axe y est orienté vers le bas, ainsi, pour qu’une chute soit détectée il faut que la coordonnée Y des points d’intérêt soit supérieure (et non inférieure) à un seuil donné.

Voilà à quoi ressemble notre algorithme après implémentation :

Cette fonction sera appelée à chaque image de la vidéo, et ainsi déterminera à tout instant s’il y a potentialité de chute ou non à partir de la position des points d’intérêt.

Et concernant le seuil, il sera défini automatiquement comme la moitié de la hauteur de la vidéo, via les lignes de codes suivantes :

# Charger la vidéo à partir du fichier
cap = cv2.VideoCapture('video.mp4')

# Initialisation du seuil
frame = cap.read()[1]
seuil_position = frame.shape[0] // 2

Pour la suite, afin de bien mettre en évidence les rouages de notre fonction PersonFallingDown_position, nous avons créé une fenêtre pour dessiner la coordonnée Y des points d’intérêt avec leur seuil, ainsi qu’une deuxième fenêtre permettant l’analyse en temps réel des points par rapport à leur seuil via des bandeaux de défilement [7] :

Analyse de la détection de chute via la position du corps grâce à notre fonction *PersonFallingDown_position*

Cependant, le fait de se baser uniquement sur la position possède plusieurs limites. Par exemple, si une personne se baisse pour récupérer un objet sur le sol ou bien se met par terre pour faire des pompes, cela pourra être traduit comme une potentialité de chute : cela crée des faux positifs.

D’où la nécessité de trouver une nouvelle variable à analyser en dehors de la position. Voilà pourquoi nous avons ajouté, en addition avec la méthode précédente, une deuxième méthode basée cette fois-ci sur l’accélération des points d’intérêt, pour diminuer le nombre de faux positifs.

3.2 Seuils sur l’accélération

En effet, grâce au filtre de Kalman nous avons pu estimer la trajectoire future et ainsi l’accélération de chaque point d’intérêt. Grâce à l’existence de ces données, nous implémentons une méthode avec un fonctionnement similaire à la méthode précédente, sauf que cette fois-ci : si la coordonnée Y de l’accélération de (3 points sur les) 5 points d’intérêt est supérieure à un seuil donné, une chute est détectée.

Voilà à quoi ressemble notre algorithme après implémentation :

Cette fonction sera appelée à chaque image de la vidéo, et ainsi déterminera à tout instant s’il y a potentialité de chute ou non à partir de l’accélération des points d’intérêt.

Et concernant le seuil, il sera défini automatiquement comme l’un sixième de la hauteur de la vidéo, via les lignes de codes suivantes :

# Charger la vidéo à partir du fichier
cap = cv2.VideoCapture('video.mp4')

# Initialisation du seuil
frame = cap.read()[1]
seuil_acceleration = frame.shape[0] // 6

Encore une fois, pour la suite, afin de bien mettre en évidence les rouages de notre fonction PersonFallingDown_acceleration, nous avons crée une fenêtre pour dessiner la coordonnée Y des points d’intérêt avec leur seuil, ainsi qu’une deuxième fenêtre permettant l’analyse en temps réel des points par rapport à leur seuil via des bandeaux de défilement [7] :

Analyse de la détection de chute via l’accélération des points d’intérêt du corps grâce à notre fonction *PersonFallingDown_acceleration*

On remarque que parfois notre fonction PersonFallingDown_acceleration, à elle seule, engendre certes quelque faux positif pour la détection de chute. Cependant, associée à PersonFallingDown_position, cette méthode permettra de tomber sur des résultats plus satisfaisants — comme on pourra le voir par la suite, dans la partie Démonstration.

3.3 Détermination de l’état de chute

Ainsi, l’état de chute est lié à ce que retourne nos deux fonctions de détection de chute. En clair, c’est “l’intersection” entre les alertes au niveau de la position et celles au niveau de l‘accélération, se matérialisant par l’opérateur logique AND entre bool_alarme_position et bool_alarme_acceleration.

À noter que dans notre système, dès lors que la chute est détecté : la séquence est sauvegardée puis enregistré dans le dossier sauvegarde, puis un message SMS est envoyé sur le téléphone de l’utilisateur (via l’API twilio) …

Démonstrations de la détection de chute

Mon projet de détection de chute est disponible sur mon Github.

GitHub - PhDMlachahe/DAIOProject: Fall detection from 2D skeleton points

Simple fall detection system: Mediapipe, OpenCV and Kalman filter To detect a fall, we set up a video surveillance…

github.com

DAIOProject
├── DataVideos
│   ├── 50WayToFall_extract1.mp4
│   ├── ...
│   └── video (27).avi
├── sauvegarde
│   ├── 2023_02_12_00_34_31.avi
│   ├── ...
│   └── 2023_02_18_12_56_09.avi
├── FallDetectionMethod.py
├── GraphicDesigner.py
├── KalmanFilter.py
├── PoseModule.py
└── TestFallDetection.py

Pour tester le code, il suffit de lancer le fichier TestFallDetection.py.

Démonstration 1 — une vidéo de chute simple issu du Fall Detection Dataset :

Démonstration 1 : La chute est détecté sans soucis particuliers

Démonstration 2 — une vidéo de chutes complexes de Kevin Parry :

Démonstration 2 : La majorité des chutes sont détectées sauf celles dont les seuils d’accélérations n’ont pas été atteint

Démonstration 3 — une vidéo de crossfit de Raphaël Colossus :

Démonstration 3 : Aucune chute n’est détectée. Les faux positifs émit par PersonFallingDown_acceleration ne sont pas pris en compte

Limites de la méthode

Bien qu’il ait été plaisant de faire une démonstration de notre méthode de détection de chute à partir des points du squelette en 2D, il est maintenant temps d’aborder ses limites, qui — si on les comprend — sont autant d’axes amélioration pour la suite.

Limitations dans la détection des points

Pour commencer, la détection des points de squelette par Mediapipe Pose peut être influencée par des conditions d’éclairage ou de bruit dans l’environnement de la personne, ce qui peut fausser la détection.
Également, si la personne est en parti cachée par un objet ou que la caméra est obstruée, la détection peut être moins précise, manquer de certains points de squelette, voire complètement fausse.

Limitations dans le suivi des points

D’ailleurs, le suivi des points de squelette par le filtre de Kalman peut être difficile dans des situations complexes où les mouvements sont rapides ou chaotiques, en particulier en raison de ses hypothèses linéaires. Ainsi, dans le cas d’une chute (un phénomène qui n’est pas du tout linéaire), le filtre de Kalman ne sera plus en mesure d’estimer l’état du système de manière précise. Des approches plus avancées, telles que les filtres de Kalman étendus (EKF) ou les filtres de particules (PF), peuvent être utilisées pour surmonter ces limitations.
En outre, les problèmes de camouflage et d’obstruction cités plus haut qui affectent la détection peuvent aussi affecter le suivi des points de squelette. Et tout cela même si l’on a vu que l’implémentation du filtre de Kalman nous permet d’estimer un état d’un point même en cas d’occultation, mais cela est vrai seulement si celle-ci est brusque ; en effet, plus l’occultation est longue, moins le filtre est corrigé et plus l’estimation est fausse.

Limitations dans la reconnaissance de la chute

De fait, la reconnaissance de la chute est affectée par des erreurs de détection ou de suivi des points d‘intérêt cités juste avant, ce qui entraîne des faux positifs.
De plus, la reconnaissance de la chute est biaisé par l’éloignement ou non du corps. Par exemple, plus le corps est éloigné, plus le corps est petit et plus il sera succeptible de franchir les seuils de position de PersonFallingDown_position. Quoi qu’il en soit, pour corriger cela, il faudrait peut-être que les seuils de position et d’accélération soient initialisées en fonction de la taille de la personne, et non plus en fonction de la taille de l’image comme nous avons fait.
D’une manière similaire à la fonction PersonFallingDown_position, qui engendre des faux positifs si une personne s’allonge au sol pour une raison quelconque, la fonction PersonFallingDown_acceleration peut engendrer des faux positifs si une personne se baisse trop rapidement (cf. Démonstration 3).

Conclusion

En somme, cet article a présenté notre méthode de détection de chute à partir des points d’un squelette en 2D, pour le projet DAÏO, un tableau mural connecté pour la téléassistance de personnes âgées.

Pour détecter une chute, nous avons mis en place une pipeline de vidéosurveillance avec trois étapes clés : la détection des points du corps, le suivi de la position et de l’accélération de ces points, et la détermination de la chute en fonction de seuils de position et d’accélération atteint par ces points.

Cette méthode de détection de chute à partir des points d’un squelette en 2D est simple et semble peu gourmande en ressources, mais elle entraîne des résultats à peine précis en raison de plusieurs limites : celles propres à la bibliothèque Mediapipe dans la détection du corps, celles dues à l’imprécision du suivi avec filtre de Kalman simple, ou bien celles liés à l’implémentation prosaïque de nos fonctions de reconnaissance. Mais il faut aussi compter celles dues tout simplement à notre choix du travail uniquement à partir du squelette 2D, qui engendre par exemple de la perte d’informations sur la profondeur et l’orientation du corps.

En fin de compte, notre méthode reste perfectible. Malgré tout cela, il faut noter qu’elle s’inscrit parfaitement dans l’esprit (et uniquement l’esprit, pour l’instant) du projet DAÏO, qui vise à fournir une solution rapide, simple et peu coûteuse pour détecter les chutes chez les personnes âgées — là où la détection à partir d’un squelette en 3D nous semblait être superflue.

Mlachahe SAID SALIMO.

Références :

1. Système de Vidéosurveillance et Monitoring, DAHMANE Mohamed, 2004
2. Détection des chutes par calcul homographique, MOKHTARI Djamila, 2012
3. Détection automatique de chutes de personnes, descripteurs spatio-temporels, Imen CHARFI, 2013
4. MediaPipe Pose, google.github.io
5. Introduction au filtrage de Kalman Théorie du filtre de Kalman discret & applications, Jerôme Verdun, 2006
6. Tuto#36[OpenCV] Filtre de Kalman et suivi d’objet p.1, L42Project, 2020
7. Tuto#26 [OpenCV] Caméra de surveillance, L42Project, 2020
8. A Real-Time Fall Detection System in Elderly Care Using Mobile Robot and Kinect Sensor, Zaid Mundher & Jiaofei Zhong, 2014
9. La fusion de capteurs, Jeremy Cohen, 2018

Pour allez plus loin :
- Approaches and Principles of Fall Detection for Elderly and Patient, Xinguo Yu, 2008
- Le filtre de Kalman : intérêts et limites