Speech-to-Text & IA | Transcreva qualquer áudio para o português com o Whisper (OpenAI)… sem nenhum custo!

7 min readDec 9, 2022

Speech-to-Text em português com Whisper (crédito da imagem: “10 Polite Words for Impolite People”)

Paga por um serviço online para obter transcrições de texto de seus arquivos de áudio? E porque não usar um modelo Whisper da OpenAI para fazer esse trabalho… de graça! Precisa especializar um modelo Whisper para as peculiaridades linguísticas de seus arquivos de áudio? Não tem problema, existem scripts e notebooks de ajuste fino (fine-tuning) para isso. Como bônus, este artigo fornece 2 modelos Whisper ajustados em português e francês, bem como interfaces Web de uso, código de inferência e também todos os notebooks correspondentes. Bom Whisper a todas e todos!

[ Atualização em 08/12/2023 ] Novos posts sobre o assunto Speech-to-Text & IA:
Speech-to-Text | Quickly get a transcription of a large audio file in any language with “Faster-Whisper”
Speech-to-Text | Get transcription WITH SPEAKERS from large audio file in any language (OpenAI Whisper + NeMo Speaker Diarization)

Sumário

Whisper, modelo Speech-to-Text
Whisper multilíngue
Whisper ajustado em português e francês
- Modelos
- Web APPs
- Notebooks
Código de inferência
Recursos

Whisper, modelo Speech-to-Text

OpenAI é conhecida por seus modelos de gerador de texto (GPT3 e, mais recentemente, ChatGPT) e de imagens como DALL-E.

Também acaba de publicar o Whisper in Open Source (portanto, utilizável gratuitamente por todos!), um modelo Speech-to-Text multilíngue que supera a concorrência em termos de qualidade (o Whisper também pode traduzir áudio de um idioma diferente do inglês).

Observação: a gente usa a expressão Speech-to-Text or ASR (Automatic Speech Recognition).

Whisper multilíngue

De fato, no uso zero-shot, ou seja, sem ajustar esse modelo a um determinado idioma por meio de um conjunto de dados de áudio-texto desse idioma, o Whisper já produz um texto de qualidade (de preferência, use a versão Medium ou Large v2).

Quer conferir? Existe no Spaces da Hugging Face uma WebUI (interface Web para todos) que permite testar todas as versões do Whisper multilíngue com qualquer tipo de áudio:

gravação de áudio via navegador,
arquivo de áudio (mp3, wav, etc.)
… e vídeo do YouTube!

Em troca, receberá o texto completo do áudio (transcrição), mas também esse mesmo texto indexado no tempo :-)

Whisper Webui - a Hugging Face Space by aadnk

Discover amazing ML apps made by the community

huggingface.co

Mais uma coisa, quer usar essa WebUI no Google Colab, no seu Cloud, na sua plataforma ou no seu próprio computador? Sem problemas. O criador (Kristian Stangeland) dessa interface publicou um notebook e um guia explicativo (muito simples) para iniciá-la em qualquer plataforma.

E é tudo grátis!

Por exemplo, gosta da música do Chico Buarque “Que tal um Samba?”, e quer que ela seja transcrita em texto? Vamos lá.

Abra a WebUI Whisper no Spaces da Hugging Face ou a partir do notebook na sua plataforma.
Pesquise no YouTube e copie/cole o link no campo “URL (YouTube, etc.)” na interface.
Escolhe como modelo Whisper a versão Medium ou Large v2.
Escolhe Portuguese no campo “Language” (também pode deixar esse campo em branco, pois a interface detectará automaticamente o idioma).
Escolhe “Transcript” no campo “Task” e aperte o botão “Submit”.

WebUI Whisper na sua plataforma com a transcrição da música “Qua tal um Samba?” do Chico Buarque

E voilà! Veja a transcrição abaixo :-)

Um samba, que tal um samba? Puxar um samba, que tal? Para espantar o tempo feio Para remediar o estrago Que tal um trago? Um desafogo, um devaneio Um samba pra alegrar o dia Pra zerar o jogo O coração pegando fogo E cabeça fria Um samba com categoria Com calma Cair no mar, lavar a alma Tomar um banho de sal grosso Que tal sair do fundo do poço? Andar de boa Ver um batuque lá no cais do Valongo Dançar o jongo lá na pedra do sal Entrar na roda da gamboa Fazer um gol de bicicleta Dar de goleada Deitar na cama da madre Despertar a poeta Achar a rima que completo o subílio Fazer um filho, que tal? Pra ver crescer, criar um filho Num bom lugar, numa cidade legal Um filho com a pele escura Com formosura Bem brasileiro, que tal? Não com dinheiro Mas a cultura Que tal uma beleza pura? No fim da borrasca Já depois de criar casca E perder a ternura Depois de muita bola fora da meta Engorruco a coluna ereta, que tal? Juntar os cacos e a luta Mantendo o rumo e a cadência Esconjurar a ignorância, que tal? Desmantelar a força bruta Então, que tal puxar um samba? Puxar um samba legal Puxar um samba porreta Depois de tanta amutreta Depois de tanta cascata Depois de tanta derrota Depois de tanta demência E uma dor, filha da puta, que tal? Puxar um samba Que tal um samba? Um samba

E as primeiras linhas da transcrição textual com informações de tempo:

1
00:00:00,000 → 00:00:29,000
Um samba, que tal um samba?
2
00:00:29,000 → 00:00:31,000
Puxar um samba, que tal?
3
00:00:31,000 → 00:00:34,000
Para espantar o tempo feio
4
00:00:34,000 → 00:00:38,000
Para remediar o estrago

Whisper ajustado em português e francês

Mas, como qualquer modelo de Deep Learning, também é possível ajustar o Whisper com um conjunto de dados de áudio-texto em um determinado idioma, a fim de melhorar ainda mais a qualidade dos textos produzidos.

Isso pode ser muito útil quando se trata de usar o Whisper em um campo específico (medicina, call centers, etc.) e/ou com condições de áudio específicas (ruído ambiental, tipo de voz, etc.).

Assim, com o objetivo de promover a multiplicação de modelos Whisper ajustados a diferentes idiomas, a Hugging Face associada à Lambda lançou esta segunda-feira, dia 5 de dezembro, o Whisper Fine-Tuning Event 🤗.

Hugging Face x Lambda: Whisper Fine-Tuning Event

Esse evento online é gratuito e permite que qualquer pessoa inscrita tenha acesso aos notebooks e scripts de fine-tuning do Whisper, conjuntos de dados de áudio-texto em diferentes idiomas e GPUs para afinar os modelos do Whisper! (notebooks e scripts de fine-tuning dos modelos Whisper)

community-events/whisper-fine-tuning-event at main · huggingface/community-events

Welcome to the Whisper fine-tuning event 🎙️! For two weeks, we will endeavour to fine-tune the Whisper model to build…

github.com

Modelos

Nesse contexto, consegui ajustar 2 modelos Whisper (versão Medium) usando os áudio-textos do dataset Mozilla Foundation Common Voice 11.0:

pierreguillou/whisper-medium-portuguese · Hugging Face

Edit model card This model is a fine-tuned version of openai/whisper-medium on the common_voice_11_0 dataset. It…

huggingface.co

pierreguillou/whisper-medium-french · Hugging Face

Edit model card This model is a fine-tuned version of openai/whisper-medium on the common_voice_11_0 dataset. It…

huggingface.co

Web APPs

Também, criei um APP no Spaces da Hugging Face por cada modelo.

Interface Whisper em português finetuned por Pierre Guillou

Aqui estão os links:

Whisper Demo in Portuguese - a Hugging Face Space by pierreguillou

Discover amazing ML apps made by the community

huggingface.co

Whisper Demo in French - a Hugging Face Space by pierreguillou

Discover amazing ML apps made by the community

huggingface.co

Notebooks

E como o autor da Web UI Whisper fez, criei 2 notebooks para rodar esses APP na sua plataforma :-)

language-models/Whisper_Medium_Portuguese_GPU.ipynb at master · piegu/language-models

You can't perform that action at this time. You signed in with another tab or window. You signed out in another tab or…

github.com

language-models/Whisper_Medium_French_GPU.ipynb at master · piegu/language-models

You can't perform that action at this time. You signed in with another tab or window. You signed out in another tab or…

github.com

Código de inferência

Por fim, se quiser usar um modelo Whisper em produção para suas necessidades profissionais por exemplo (e desenvolver assim sua própria interface), deve acessar o código diretamente.

Então coloquei no github um notebook (inference_code_whisper_example_with_Portuguese.ipynb) onde precisa só definir o idioma e o modelo do Whisper para usar. O restante do código é usado para obter a transcrição de texto de um arquivo de áudio.

Para testar o código, usei o modelo Whisper em português.

language-models/inference_code_whisper_example_with_Portuguese.ipynb at master ·…

You can't perform that action at this time. You signed in with another tab or window. You signed out in another tab or…

github.com

Recursos

Paper Whisper (OpenAI)
github Whisper (OpenAI)
Blog post Whisper (OpenAI)
Whisper Fine-Tuning Event 🤗
Hugging Face x Lambda: Whisper Fine-Tuning Event
Fine-Tune Whisper For Multilingual ASR with 🤗 Transformers
Mozilla Foundation Common Voice 11.0 (e na Hugging Face)
Notebooks e scripts de fine-tuning dos modelos Whisper
Notebooks speech-recognition da Hugging Face
Notebook: Whisper WebUI GPU
Notebook: Whisper em português
Notebook: Whisper en français
Notebook: Inference code for Whisper (example with Whisper Medium in Portuguese)
Whisper ajustado em português
Whisper ajustado em francês
Web APP na HF: Whisper Webui
Web APP na HF: Whisper Demo in Portuguese
Web APP na HF: Whisper Demo in French
A Complete Guide to Audio Datasets

Sobre o autor: Pierre Guillou é consultor de IA no Brasil e na França. Entre em contato com ele por meio de seu perfil no LinkedIn.

Speech-to-Text & IA | Transcreva qualquer áudio para o português com o Whisper (OpenAI)… sem nenhum custo!

Sumário

Whisper, modelo Speech-to-Text

Whisper multilíngue

Whisper Webui - a Hugging Face Space by aadnk

Discover amazing ML apps made by the community

Whisper ajustado em português e francês

community-events/whisper-fine-tuning-event at main · huggingface/community-events

Welcome to the Whisper fine-tuning event 🎙️! For two weeks, we will endeavour to fine-tune the Whisper model to build…

Modelos

pierreguillou/whisper-medium-portuguese · Hugging Face

Edit model card This model is a fine-tuned version of openai/whisper-medium on the common_voice_11_0 dataset. It…

pierreguillou/whisper-medium-french · Hugging Face

Edit model card This model is a fine-tuned version of openai/whisper-medium on the common_voice_11_0 dataset. It…

Web APPs

Whisper Demo in Portuguese - a Hugging Face Space by pierreguillou

Discover amazing ML apps made by the community

Whisper Demo in French - a Hugging Face Space by pierreguillou

Discover amazing ML apps made by the community

Notebooks

language-models/Whisper_Medium_Portuguese_GPU.ipynb at master · piegu/language-models

You can't perform that action at this time. You signed in with another tab or window. You signed out in another tab or…

language-models/Whisper_Medium_French_GPU.ipynb at master · piegu/language-models

You can't perform that action at this time. You signed in with another tab or window. You signed out in another tab or…

Código de inferência

language-models/inference_code_whisper_example_with_Portuguese.ipynb at master ·…

You can't perform that action at this time. You signed in with another tab or window. You signed out in another tab or…

Recursos

Written by Pierre Guillou