Tradução de Libras em Vídeos com MediaPipe, Keras e Teachable Machine
O desafio de hoje é usar Visão Computacional e IA para tradução de letras e palavras em Libras (Língua Brasileira de Sinais). Neste post, compartilho como consegui realizar essa tarefa com a ajuda das bibliotecas MediaPipe, Keras e do incrível Teachable Machine do Google.
Pré-requisitos
Antes de começarmos, você precisará dos seguintes pré-requisitos:
- Python (versão utilizada: 3.7+)
- Bibliotecas Python: cv2, mediapipe, keras, numpy
- TensorFlow (versão utilizada: 2.9.1)
- Jupyter Notebook ou Colab (ou equivalente)
- Teachable Machine
Coletando Dados e Treinando o Modelo
Para treinar um modelo de reconhecimento de gestos de mão, usei o Teachable Machine, uma ferramenta do Google que simplifica o treinamento de modelos de aprendizado de máquina com base em dados de imagem e áudio. Com o Teachable Machine, coletei imagens de gestos de mão específicos e treinei um modelo personalizado.
Após o treinamento, exportei o modelo e o integrei ao meu código.
Processamento de Vídeo em Tempo Real com MediaPipe
O MediaPipe é uma biblioteca do Google que oferece uma série de soluções prontas para uso, incluindo o módulo Hands para detecção de mãos. Com o MediaPipe, consegui processar cada quadro do vídeo e identificar a presença de gestos de mão.
O Código Completo
O código completo deste projeto está disponível no meu GitHub. Sinta-se à vontade para explorar e experimentar por conta própria: https://github.com/LauraMattosc/libras
Conclusão
A Visão Computacional tem grande potencial nas áreas de acessibilidade e tradução de Libras. Se você tiver alguma dúvida ou quiser compartilhar suas próprias experiências, não hesite em deixar um comentário abaixo. Vou adorar ouvir novos experimentos!
Até a próxima!