Google Assistant e robôs que falam demais 🤔

Roc de Castro
Bots Brasil

--

Ok, mundo. Quero conversar com você sobre Google Assistant. Er.. bem… espera.

Opa! E aí? Na verdade, preciso passar por um assunto antes de ir direto ao ponto. Se você chegou até aqui, aposto que você vai gostar de ler sobre Análise da Conversação. Esse campo de estudo trata de comportamentos verbais e não-verbais observados em interações humanas. Quem tá de olho nisso, há não mais que meio século, são linguistas, antropólogos, sociólogos, psicólogos. Lembra quando era moda falar comunicólogo? Isso é da época em que me formei em jornalismo. Mas vamos deixar os ólogos pra outra hora.

Pelas entranhas da conversa

Como a gente conversa, então? Eu podia traduzir o título How we Talk: the Inner Works of Conversation por algo como “Bastidores da Conversação”. Mas entranhas me soou mais apelativo pra chamar a sua atenção. Estou lendo esse livrinho pela segunda vez e o que não sai da minha cabeça no momento é que nós humanos somos uma espécie de robôs programados para falar demais. E isso é bom. Vou pincelar por aqui cinco insights bem interessantes pro nosso papo:

1- Algumas interações pouco registradas na forma escrita foram consideradas como elementos não-organizados e imperfeições na linguagem por muito tempo. Elas são fundamentais para entendermos normas e princípios sociais de cooperação que regem os turnos de uma conversa, num sistema batizado como The Conversation Machine, ou A Máquina da Conversação para nós lusófonos.

2- A interjeição “Huh” (hã em português?) funciona como uma espécie de mecanismo de reparo universal, observada em dezenas de línguas. Ela é muito usada quando algo não é entendido ou é mal compreendido. Existem outros tipos de reparo: hein, como, quem, hã-hã, pode repetir? Essas estratégias são aplicadas, na maioria das vezes em níveis progressivos e de forma inconsciente, sempre tentando facilitar o bom andamento da conversa pelos interlocutores.

3- O tempo das pausas medidas entre os turnos de uma conversa também costuma ser universal, variando em milissegundos. Em geral, levamos um quinto de segundo para começar a falar depois que a outra pessoa termina. E aqui fica mais interessante ainda: esse intervalo de 200ms é menor que nossa capacidade cognitiva de interpretar a mensagem e formular uma resposta. Isso significa que nosso interlocutor envia sinais de que é nossa vez antes de concluir a sua frase.

4- Um silêncio de mais do que meio segundo entre os turnos implica num sinal de alerta. É uma bandeira amarela para que uma das pessoas reformule a pergunta com o objetivo de ajudar seu interlocutor na resposta mais assertiva para o objetivo da conversa, e menos constrangedora caso não seja o feedback esperado. Um segundo de demora levanta a bandeira vermelha.

E agora uma polêmica que achei sensacional:

5- Alguns estudos apontam que Margaret Thatcher, a Dama de Ferro, era constantemente interrompida por jornalistas em entrevistas coletivas. Descobriram que as interrupções não eram propositais depois de estudarem um padrão diferente na maneira (prosódia) como a Primeira Ministra terminava ou deixava de terminar suas frases, passando um sinal errado. Sobre isso, você pode ler aqui. Também tem uma discussão sobre esse caso aqui.

Help! E o que o Google Assistant tem a ver com isso tudo?

Qual é diferença entre uma conversa de voz, em turnos, e uma conversa por escrito? A diferença não é sutil como um sussurro, mas gritante. São basicamente dois animais da mesma família, mas de espécies completamente diferentes. Aprender que eles não se reproduzem de forma natural foi uma grande descoberta. E, quando se reproduzem, vou te dizer, geram uma prole nada fértil.

Quando fui chamado para trabalhar pela primeira vez com esse assistente de voz, encontrei diálogos transcritos de um chatbot web narrados em Text To Speech (TTS para os mais íntimos). Meu job, na época, era: “faz aí só um QA, rapidão dessa Action no Assistant, belê?”. Quem já ouviu um bot falado em TTS assim, imagina o que eu tô falando. Mas não precisa imaginar, não. Ouve isso:

Aí, fui dar uma espiada na documentação do Google sobre essa nova plataforma e mergulhei num mundo maravilhoso. Um mundo belo e cheio de armadilhas, complexo e interminável. A partir desse estudo, feito noites e madrugas adentro (porque a máquina da conversão/conversação não pode parar) criei uma documentação própria em PT-BR para trabalhar com nossos clientes e desenvolvedores.

Quer começar a trabalhar com o Google Assistant e não sabe por onde começar?

No final do no passado, participei do primeiro workshop de Conversation UX Design promovido pelo Google no Brasil. Ali, tive a oportunidade de interagir com James Giangola, um cara que é praticamente o Darwin das Interfaces de Voz (Voice User Interfaces para o SEO). Calma, fiz essa propaganda toda para introduzir um resumão do que ele falou. Um presentinho pra quem não teve a oportunidade de ir no evento. Além desse texto, que vale como um curso, vou compartilhar aqui mais dois regalos que recebemos no workshop:

Por aqui, você pode acessar e fazer a sua cópia do App proposal, um documento distribuído pelo Google com requisitos, template para desenvolvimento de persona, casos de uso e amostras de diálogo. E, segura essa para botar a mão na massa de verdade: os módulos de tutorial para Assistant do Google Developers Codelabs.

Chegou a hora de mostrar um exercício que fiz para fechar o papo de hoje. Lembra das interjeições, pausas, reparos e outros quetais? Com vocês, as entranhas de uma conversa gerada para a Action hipotética desse artigo no Google Assistant.

Ouve aí, e depois dá uma olhada em como a documentação e recomendações de reparo batem com alguns princípios que conversamos. Tchauzinho!

Esse artigo é o segundo de uma série sobre os mais de 10 chatbots que desenhei em 2018. Dá pra ler o primeiro aqui. No momento, trabalho com dois assistentes para o Google Assistant. Um deles para uma grande rede de academias, outro para um canal de TV e gastronomia. Até a logo mais 👋.

--

--