Tradução de Libras em Vídeos com MediaPipe, Keras e Teachable Machine

Published in

Data Hackers

2 min readJan 14, 2024

O desafio de hoje é usar Visão Computacional e IA para tradução de letras e palavras em Libras (Língua Brasileira de Sinais). Neste post, compartilho como consegui realizar essa tarefa com a ajuda das bibliotecas MediaPipe, Keras e do incrível Teachable Machine do Google.

Pré-requisitos

Antes de começarmos, você precisará dos seguintes pré-requisitos:

Python (versão utilizada: 3.7+)
Bibliotecas Python: cv2, mediapipe, keras, numpy
TensorFlow (versão utilizada: 2.9.1)
Jupyter Notebook ou Colab (ou equivalente)
Teachable Machine

Coletando Dados e Treinando o Modelo

Para treinar um modelo de reconhecimento de gestos de mão, usei o Teachable Machine, uma ferramenta do Google que simplifica o treinamento de modelos de aprendizado de máquina com base em dados de imagem e áudio. Com o Teachable Machine, coletei imagens de gestos de mão específicos e treinei um modelo personalizado.

Após o treinamento, exportei o modelo e o integrei ao meu código.

Processamento de Vídeo em Tempo Real com MediaPipe

O MediaPipe é uma biblioteca do Google que oferece uma série de soluções prontas para uso, incluindo o módulo Hands para detecção de mãos. Com o MediaPipe, consegui processar cada quadro do vídeo e identificar a presença de gestos de mão.

O Código Completo

O código completo deste projeto está disponível no meu GitHub. Sinta-se à vontade para explorar e experimentar por conta própria: https://github.com/LauraMattosc/libras

Conclusão

A Visão Computacional tem grande potencial nas áreas de acessibilidade e tradução de Libras. Se você tiver alguma dúvida ou quiser compartilhar suas próprias experiências, não hesite em deixar um comentário abaixo. Vou adorar ouvir novos experimentos!

Até a próxima!