Ensinando o Watson a falar: como treinar o Text to Speech (TTS)

http://www.cbc.ca/news/canada/nova-scotia/ross-and-kathy-petras-new-book-on-pronounciation-1.3028181

Se você já testou alguma solução de mercado para a sintetização de áudio a partir de texto (text to speech) então você provavelmente já se deparou com alguma palavra que soou errado.

Isso ocorre porque as soluções de texto pra fala (TTS) são treinadas considerando o português comum que encontramos no dicionário padrão.

No entanto é muito comum encontrarmos siglas, termos específicos ou até mesmo a utilização de palavras estrangeiras dentro de uma empresa nas nossas respostas.

Como podemos adaptar nosso sistema cognitivo para que possa suportar tais especializações?

Um método seria escrever a palavra errada em nossas respostas para que então ela fosse vocalizada corretamente nos sistemas que utilizam áudio, mas essa abordagem nos tira a flexibilidade de poder treinar um mesmo corpus e permitir a utilização tanto por texto quanto por voz além de introduzir alguns outros "contras".

15 Food Names You’re Probably Mispronouncing

Nesse tutorial vamos apresentar como customizar o Watson Text to Speech de modo que ele fale as suas palavras corretamente em português.

“Um dos diferenciais do Text to Speech da IBM é a possibilidade de customizar como as palavras são expressas em português.”

O passo-a-passo e o código:

Dessa vez eu preferi fazer toda a explicação técnica direto em um jupyter notebook utilizando python para que todo mundo possa rodar o código com seus próprios exemplos.

Se você nunca utilizou um jupyter notebook não tem problema! A IBM recentemente lançou o Watson Studio, uma plataforma de IA e data science online que te permite trabalhar com as mais populares ferramentas de análise de dados e criação de modelos de machine learning (e deep learning) de maneira simples e gratuita (existem planos pagos também).

O que você precisa fazer é:

  1. Se você ainda não tem um cadastro na IBM cloud então comece por aqui
  2. No catálogo selecione a categoria Watson e crie um serviço text-to-speech
  3. Volte para a categoria Watson do catálogo e agora crie seu Watson Studio
  4. No Watson Studio crie um novo projeto deixando os notebooks habilitados
  5. Crie um novo notebook a partir da opção "From URL" e coloque o seguinte link: https://github.com/renatodossantosleal/WatsonTextToSpeechCustom/blob/master/CustomizacaoWatsonTTS.ipynb
  6. Pronto! Agora é só pegar as credenciais do seu serviço de TTS e alterar o username e password do código apresentado.
  7. PS: para rodar cada célula do notebook basta apertar shift + enter.

Se você preferir rodei o código que tem aí e salvei como HTML, você pode baixar o arquivo no meu projeto do github e visualizar tudo no Chrome, você conseguirá até ouvir como foi que o TTS sintetizou as palavras em cada situação!

Renato dos Santos Leal

Written by

Artificial Intelligence Delivery Manager @ Accenture ● https://br.linkedin.com/in/renatodossantosleal

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade