KODA, l’application de traduction de la langue des signes

Arnaud Burgniard
SmileConsulting
Published in
7 min readApr 20, 2020

--

Bonjour et bienvenue cher·ère lecteur·rice :)

En décembre 2018, Fabien Gasser et la direction de l’innovation Smile (société de services qui a à cœur de contribuer à des projets open source et aussi d’innover) ont organisé un hackathon interne, dans les locaux du MAMA Works de Bordeaux. Quatre thématiques étaient aux rendez-vous :

  • La blockchain.
  • L’IA et le machine learning.
  • Les assistants conversationnels.
  • Les maisons connectés.

Pour l’occasion, nous avons formé une équipe de collègues, amis, pluridisciplinaire et créative capable de répondre à ces thématiques. L’équipe était composée de :

Nous avions envie de créer un projet qui a du sens, un projet humain et utile #TechForGood avec une importante dose d’innovation technique pour correspondre au thématiques du hackathon. Nous avons choisi la traduction automatique de la langue des signes. Lors de la préparation de ce hackathon et durant nos recherches de sujet, nous avons observé que très peu d’initiative avait vu le jour sur la traduction de la langue des signes (dans le sens : langue des signes vers une langue écrite & parlée).

Quelques chiffres clés

  • 370M de personnes atteintes de surdité dans le monde.
  • Dont 7M en France.
  • 1 enfant sur 1 000 naît sourd.
  • 300 000 personnes parlent la langue des signes française (LSF).
  • 190 000 personnes sont sourdes profondes en France.
  • 70 % des sourds sont illettrés.
  • La LSF a été la première langue des signes reconnu dans le monde.
  • Il existe autant de langues des signes qu’il y a de pays dans le monde, néanmoins la LSF sert de base à beaucoup d’autres langues des signes.

Notre volonté lors du hackathon

Pendant deux jours intenses, nous avons travaillé sur qutre parties essentielles pour présenter notre concept, montrer la viabilité du projet et convaincre le jury :

  • Une page web utilisant la webcam d’un ordinateur ou d’un smartphone pour capter le flux vidéo.
  • Un système capable de réceptionner le flux vidéo
  • Un système capable de détecter une personne en train de signer dans la vidéo.
  • La scénarisation de la présentation du projet pour le jury.

Nous avons réussi à avoir une proof of concept sur deux mots “bonjour” et “sourd”. Nous avons créé un outil capable de détecter et différencier des mouvements, leur donner un sens, le tout à partir d’une vidéo en temps réel. Le jury a été impressionné par ce résultat en si peut de temps, ce qui nous a valu de remporter ce hackathon !

Après le hackathon

Le succès du hackathon nous a permis de profiter du programme de subvention du département innovation de Smile ! L’objectif de la subvention était de creuser le sujet et par exemple : d’envisager d’autres solutions techniques, reconnaître davantage de mots, de dépasser le cadre du proof of concept, etc.

Le programme d’accompagnement de la Direction de l’innovation nous permet donc de continuer le travail engagé par l’équipe du hackathon et aussi d’engager davantage de moyen en s’appuyant sur les différents corps de métier de Smile :

Avec l’intervention de ces nouveaux protagonistes, Koda, petit projet d’innovation issu du hackathon, est devenu un projet à part entière.

La région Île-de-France, BPI France & Cap Digital lancent le Innov’up proto 2019

Pour aller encore plus loin dans ce projet, la direction de l’innovation nous a aidé dans la recherche de subvention externe. Nous avons présenté notre projet Koda dans le cadre des Innov up proto Ville durable. Notre projet a été retenu avec 16 autres projets innovants pour les développer et le présenter au salon Viva Technology en juin prochain. Ce concours nous a permis de décrocher une bourse et de financer plus de 200 jours de travail (développement, communication, recherche de partenariats, lien avec les associations, lien avec des influenceurs, etc.).

Happy first anniversary

Pour bien comprendre les besoins des sourds, nous avons pris contact avec le monde de la langue des signes pour qu’ils nous aident, nous conseillent et construisent l’outil avec nous. Voilà où nous en étions, après 1 an de travail, pour faire avancer l’état de l’art sur le domaine. Ce travail nous a permis de faire des expérimentations plus poussées et a soulevé de nouvelles problématiques.

Nous pouvions facilement alimenter un modèle de données pour lui apprendre n’importe quel mouvement et lui donner un sens.

Illustration de l’apprentissage des signes par notre système

En utilisant cette méthode nous pouvons nous affranchir de toute la technicité de la langue des signes. La syntaxe de la LSF est à la fois gestuelle et visuelle :

La configuration : La forme de la main, il en existe 60 qui peuvent se manifester comme :

  • Une main qui bouge.
  • Deux mains actives et symétriques.
  • Les deux mains, dont la main dominante qui agit et l’autre qui ne bouge pas.

L’orientation de la main : la main peut être orientée différemment : paumes vers le bas, le haut et les bras peuvent être horizontaux, verticaux, obliques…

L’emplacement : les signes se font à une quinzaine d’endroits sur le corps et trois principaux dans l’espace. Exemple : la bouche, les yeux, le bras, l’estomac, la paume…

Le mouvement : il peut être simple ou plus complexe. Il existe aussi des mouvements de tête. D’autres éléments interviendront pendant un mouvement comme le trajet, la direction et la vitesse.

L’expression du visage : elle joue un rôle primordial dans la construction d’une phrase. Les expressions du visage, les mouvements et les emplacements sont utiles pour :

  • Intensifier un signe, un accent.
  • Combiner des signes pour faire des signes composés.
  • Différencier certaines paires « nom-verbe ».

Depuis décembre 2019

Nous avons ouvert un site dédié au renseignement de signes dans notre dictionnaire. Tout le monde peut participer, à condition d’être un minimum à l’aise avec la langue des signes, pour assurer une très bonne qualité de donnée essentielle à tout projet de machine learning. Plus nous avons de participants, mieux c’est ! Le modèle a besoin d’être entraîné dans des situations de vie différentes :

  • Lieux (bureau, jardin, cuisine, grande surface, etc.).
  • Personnes différentes (pilosité, coupes et couleurs de cheveux, couleurs de peau, etc.).
  • Vêtements (clair, foncé, t-shirt, pull, sweeter, chemise, etc.).
  • Luminosités (à contre jour, sous la lumière, la nuit, etc.).

Chaque vidéo est ensuite validée par nos ambassadeurs spécialistes de la LSF.

Cette diversité dans la récolte des signes, permet d’améliorer la détection de ceux-ci et donc la fiabilité et la pertinence de la traduction. Nous souhaitons que KODA fonctionne pour tous et dans toutes les situations.

Certains produits ont déjà eu des problèmes de détection de couleurs de peau foncée par exemple.

Les prochaines étapes

Nous avançons progressivement sur l’amélioration du système de traduction. Il nous reste néanmoins plusieurs gros challenges.

  1. La récolte de plus de mots
    Vous pouvez nous aider en partageant, en interagissant sur le projet et en incitant vos connaissances à participer.
  2. L’amélioration du système de reconnaissance de signes
    Aujourd’hui, nous avons une base d’environ 1 000 vidéos qualifiées, sur une quarantaine de signes différents. Nous concevons et entraînons notre intelligence artificielle sur cette base là. Les résultats ne sont pas encore suffisamment satisfaisants, même sur cet échantillons. Pour qu’il le soit, il faudrait que notre système puisse reconnaître un signe au minimum à 98% du temps. Nous y travaillons !
    Pour plus d’informations sur le côté technique, vous pouvez vous référer à cet article sur l’intelligence artificielle et les données chronologiques, celui-ci sur le time distributed dans les réseaux de neurones, ainsi que celui là sur l’entraînement d’un réseau de neurones avec une séquence d’images.
  3. La création d’un système de traduction de la syntaxe LSF
    En effet, la langue des signes française n’a pas la même syntaxe que le français parlé (les pronoms, déterminants, ou autres prépositions, ne sont pas forcément signés mais tiré du contexte). Aussi, l’ordre des mots est différent, tout d’abord le lieu, puis le temps, ensuite le sujet et enfin l’action. Tous ces points sont à prendre en compte pour que le rendu textuelle ou audio soit qualitatif.
  4. Participation au H2020
    Le projet Koda est un projet humain et innovant, mais aussi un projet de recherche. Nous essayons de monter un dossier et un consortium, afin de soumettre le projet à Horizon 2020, le programme de recherche et d’innovation de l’Union européenne. L’objectif est de décrocher une bourse pour financer notre recherche et de l’aide d’entreprises ou laboratoires compétents dans le domaine.

Si vous souhaitez participer à l’aventure, vous pouvez nous aider directement sur le site koda-inc.fr, nous suivre et nous contacter sur Linkedin ou Facebook.

Merci pour votre lecture.
À bientôt.

--

--

Arnaud Burgniard
SmileConsulting

Digital consultant, Product owner, expert in user experience design