Comment mettre la reconnaissance vocale au service de l’éducation ?
Lors de l’apprentissage de la lecture, un enfant doit absolument s’entraîner à lire à voix haute pour devenir un lecteur chevronné. Pourtant c’est un exercice qui prend beaucoup de temps en classe car il doit être réalisé de façon individuelle et séquentielle, c’est-à-dire un élève après l’autre, et actuellement, sans outils appropriés. Il est donc difficile pour un professeur d’instaurer ce rituel de façon efficace sans une aide extérieure.
Grâce aux avancées technologiques en reconnaissance vocale on peut imaginer mettre un élève en autonomie sur un exercice de lecture à voix haute et corriger de manière automatique ses erreurs. Il est prévu à court terme d’intégrer ce type d’exercices dans Lalilo et c’est pourquoi nous développons notre propre solution de reconnaissance vocale. En effet, un des objectifs de Lalilo est de simplifier la vie des professeurs, leur permettre de gagner du temps, afin qu’ils puissent se concentrer réellement sur leur métier.
En tant que speech scientist chez Lalilo, la première question qu’on me pose est: “pourquoi ne pas utiliser une technologie clef en main telle que Google Cloud Speech?”, et bien car nos applications sont fondamentalement différentes et surtout elles ne sont pas compatibles.
La plupart des solutions clef en main proposent des API de speech-to-text, c’est-à dire qu’elles permettent de convertir un signal de voix en texte, c’est le cas de Siri ou de Google par exemple. Le but d’une API de speech-to-text est donc d’écouter une personne parler et de réussir à retranscrire ce qu’elle veut dire. Même si l’élocution n’est pas parfaite, elle doit être capable de prendre en compte le contexte pour donner le texte le plus proche possible de ce que la personne a voulu dire. Plus la technologie est performante et plus elle va être capable de lisser les erreurs possibles d’élocution, comme un bafouillage, une mauvaise prononciation, ou une répétition d’un ou plusieurs mots, et c’est exactement l’opposé de ce que nous cherchons à faire chez Lalilo. Notre but est bien de détecter les erreurs lors de la lecture de l’enfant pour l’aider à se corriger. C’est la première raison pour laquelle nous n’utilisons pas de technologie sur étagère.
La deuxième raison est que lors d’un exercice de lecture nous avons l’avantage de connaître le texte qui est supposé être dit. Même si ce que lit l’enfant est souvent assez loin du texte initial, en terme de vocabulaire notre tâche de reconnaissance est bien plus simple que celle d’une technologie de speech-to-text, où n’importe quel mot peut être dit.
Pourtant, suivre en temps réel un enfant qui lit peut être une tâche très complexe. Il y a plusieurs raisons à cela.
La première est le contexte de salle de classe, souvent très bruyant, qui dégrade énormément les performances de la reconnaissance vocale. Le matériel, souvent de mauvaise qualité et très variable d’une école à une autre, vient s’ajouter à la difficulté.
De plus, la reconnaissance sur les voix d’enfant est beaucoup moins performante que sur des voix d’adultes car les modèles acoustiques utilisés sont entraînés sur des voix d’adulte. Le fait que l’enfant est en train de lire et non en train de parler modifie énormément l’élocution ce qui complique d’autant plus la tâche. Aujourd’hui il n’existe pas de corpus de voix d’enfant en train de lire en français. Afin d’améliorer les performances de notre application de suivi de lecture, nous avons donc besoin de créer notre propre corpus. C’est un travail de longue haleine puisque nous avons besoin de plusieurs dizaines d’heures d’enregistrement.
Si vous êtes parent ou si vous avez un enfant dans votre entourage qui pourrait lire quelques lignes pour Lalilo afin de nous aider dans cette tâche, n’hésitez pas à nous contacter sur hello@lalilo.com :) Merci d’avance !