Algumas observações sobre a seleção de vozes em interfaces conversacionais

Adriano Pequeno
Dialograma
Published in
8 min readJan 29, 2021

Quer ouvir o nosso texto em vez de ler? É só clicar no player abaixo!

Com a automatização dos serviços avançando em saltos, marcados pela IA (inteligência artificial), pelo machine learning e deep learning, temos que observar com atenção como a evolução qualitativa das interações com os usuários se apresenta ao mercado.

Afinal, não é possível enxergar valor em um serviço que despreze a premissa de estabelecer uma boa interface com o usuário. Em um paralelo simples, seria como se inventassem o melhor computador do mundo, mas que ninguém fosse capaz de utilizar.

As melhorias na interação devem sempre levar em consideração a intuitividade por parte do usuário, ou seja, a capacidade de que a utilização seja tão clara e objetiva que simplesmente flua de forma automática, por mais que o serviço jamais tenha sido utilizado antes por essa pessoa.

Um bom critério por excelência para avaliar a usabilidade da plataforma é que ela gere tamanha familiaridade e identificação com o usuário que despreze a necessidade de leitura de um manual ou mesmo que prescinda de um período de aprendizagem e adaptação.

Seguindo essa mesma lógica, mas pensando especificamente nas interfaces de voz, quais seriam as melhorias decisivas voltadas à humanização deste serviço?

Bom, antes de mais nada, se a interação entre usuário e assistente virtual é realizada pela fala, não há caminho possível para o designer de interfaces que não passe por uma espécie de “naturalização” desses diálogos, trabalho este que deve procurar mimetizar um diálogo conversacional humano em todas as suas características, traços e níveis de interatividade.

Logo, se os agentes virtuais buscam atender às necessidades dos usuários que, atualmente, são realizadas por atendentes de call centers, a tarefa de naturalizar os enunciados da ferramenta deve ser pautada nos elementos característicos deste contexto, além, é claro, de procurar melhorar a jornada do cliente o quanto for possível.

Há, contudo, um universo artístico que precisa ser considerado, afinal de contas, por mais que se trate de uma jornada de atendimento para resolução de problemas, a interface possuirá uma voz, cujos áudios e fraseologias serão fruto da composição criativa desses textos, da interpretação dramática de um ator ou atriz e da direção artística do designer encarregado.

Fonte: Jason Rosewell/Unsplash

Um ponto importantíssimo é que sempre que entramos em contato com uma voz desvinculada de uma imagem, como em uma ligação telefônica ou uma transmissão de rádio, tendemos a imaginar os atributos físicos, psicológicos e comportamentais daquela pessoa por meio das características materiais das frequências da voz.

Ou seja, a fala materializada por uma voz gera efeitos que nos faz idealizar características mais objetivas e materiais, como gênero, o grau de polidez e a variedade dialetal (sotaque), assim como características menos objetivas, como simpatia, segurança, acolhimento etc.

Em suma, como essa voz necessariamente vai gerar efeitos tangíveis e intangíveis no usuário final, abre-se aí uma oportunidade de desenhar, balizar e manipular essas impressões por meio do texto, da direção artística e da seleção daquela voz de acordo com atributos desejados em cada caso específico, tarefa que é conhecida como casting.

Como é que se faz essa seleção de voz pra uma interface?

Se nos call centers, em teoria, qualquer pessoa consegue trabalhar, isto é, qualquer voz pode atuar fazendo ou recebendo ligações com a premissa de suprir as necessidades dos usuários, ter uma voz “bonita” ou possuir técnicas de impostação não são requisitos para essa profissão.

Da mesma forma, o talento de voz utilizado em um agente virtual não necessita ter um timbre da era de ouro do rádio ou de um locutor profissional para imprimir efeito de clareza.

Então, é possível usar qualquer voz para um assistente virtual? Sim e não, pois qualquer voz potencialmente pode ser utilizada em uma interface, mas há variáveis que necessitam ser consideradas nesta equação para garantir melhorias significativas à jornada do usuário, como o jogo de forças entre a naturalidade da interpretação e a clareza da pronúncia ou da dicção.

Para ser exato, ao se produzir o discurso de um assistente virtual, devemos sempre levar em consideração a contraditoriedade entre a naturalidade e a clareza para que se garanta a compreensão do usuário e se preserve uma experiência conversacional. Afinal, vivemos em um país de proporções continentais, onde as variantes do idioma são inúmeras e dependentes de fatores socioculturais complexos (como idade, gênero, localização geográfica, classe social, hábitos culturais etc).

Deste modo, se a interação da nova tecnologia aposta somente na naturalização, mimetizando um discurso totalmente humanizado, este discurso só irá representar uma pequena parcela de uma população tão diversificada como a brasileira e acabará sendo específico demais para a compreensão de uma imensa fatia de usuários.

Como exemplo, peguemos um discurso imaginário de um homem que não seja locutor profissional, com cerca de 50 anos, que nasceu e cresceu em um ambiente agrário no interior do Rio Grande do Sul. Essa interface, de fato, estabelecerá uma comunicação absolutamente natural com todos os integrantes daquela comunidade de fala específica.

No entanto, ao tentar estabelecer um diálogo com pessoas do norte ou nordeste brasileiro, é bastante provável que haja muitos ruídos comunicacionais motivados pelo léxico utilizado, pela pronúncia marcada pela variação dialetal específica (o sotaque), entre outras determinantes. Desse modo, estaríamos tratando de uma interface absolutamente natural, mas com pouca clareza.

Sendo assim, a utilização de locutores profissionais é totalmente recomendada, já que garante melhor entendimento por parte do usuário? Sim e não! Os locutores possuem técnica de dicção e prosódia com o intuito de garantir a compreensão de seus interlocutores, mas, por outro lado, estes mesmos atributos afastam o usuário de uma experiência conversacional humanizada, já que tanto nos call centers quanto no dia a dia, as pessoas não se comunicam como locutores.

Em suma, ao investirmos em uma situação hipotética em que nos preocupamos somente com a clareza, deixando a naturalidade em segundo plano, a mensagem será absolutamente compreendida, mas sem que o usuário final tenha a impressão de um diálogo conversacional realista.

A única saída é realizar uma direção do talento de voz criteriosamente comprometida com o equilíbrio entre a naturalidade e a clareza, dosando, sobretudo, vícios de locução, registro de atuação e cadência rítmica, buscando garantir expressividade como efeito de uma interação humanizada. Além disso, é fundamental a seleção de uma voz adequada à persona da marca, mas este assunto será abordado com detalhes em um próximo artigo.

Mas o que leva uma voz a ser considerada expressiva?

Sabemos que, dentro dos estudos da fonética e da fonologia, o campo da prosódia ocupa-se da entonação, do ritmo e da acentuação (intensidade, altura e duração) das palavras e frases. Grosso modo, a prosódia pode ser entendida como tudo aquilo que não é representável via texto escrito.

Contudo, esta não é a única preocupação que devemos ter ao se dirigir um talento de voz, já que há o universo da expressividade artística a ser explorado, que age por meio de minúcias, como a simpatia, uma espécie de tonalidade afetiva que causa imensuráveis e complexos efeitos no interlocutor.

Se a prosódia dá conta da clareza e dos relevos entoativos para que uma interrogação soe como uma pergunta, só a expressividade pode dar conta de todo um universo dramático, como a rigidez, a alegria, a confiança, dentre muitas outras características de interpretação que soem como sensíveis aos ouvidos do usuário.

Metodologicamente, podemos separar essa tal de expressividade em dois níveis: há o primeiro, mais superficial, que corresponde especificamente à naturalidade. Mas há ainda um outro nível, mais profundo, que concerne especificamente ao registro de atuação, ou seja, a um estilo que baliza as características pessoais e suas nuances que devem ser construídas e executadas de acordo com atributos elencados a partir do design de persona.

O primeiro nível é mais objetivo, pois é um tratamento voltado à tarefa de fazer com que o texto jamais pareça “lido”, artificial, mecânico ou monótono. Neste nível também vai ser buscada a cadência rítmica de um diálogo humano, pois este ponto, junto com a entoação, é um verdadeiro divisor de águas entre a fala robotizada e a fala humanizada.

É muito importante, de antemão, ter em mãos um texto que pertença ao gênero falado da linguagem, pois, caso contrário, esta locução jamais soará como natural, embora possua clareza. Por isso mesmo, é preciso entender que a separação entre níveis de direção é algo abstrato, que nos serve didaticamente, mas que, na prática, se trata de algo indissociável.

O segundo nível, por sua vez, trata da atuação em si e traz consigo fatores absolutamente abstratos e critérios que pertencem à esfera subjetiva. Aqui, contam muito mais as impressões que a voz transmite ao usuário final do que qualquer outra coisa.

A direção do talento de voz é algo semelhante a de um ator de teatro ou de cinema. Deve-se portanto, explorar o carisma, a simpatia, a solicitude, a firmeza, a confiança, entre outros atributos, com o intuito de que estas características fiquem impressas no áudio em questão e, sobretudo, atendam aos padrões definidos previamente para a persona criada para o cliente.

Mas se esses efeitos de uma voz causados no usuário são abstratos e subjetivos, como é possível avaliar uma voz com critérios objetivos?

O que há de mais fundamental a esta altura é que por mais que se trate de uma atividade que se desdobrará em um produto de impressões subjetivas, ao colocarmos à prova estas impressões pessoais, como por meio de um teste, haverá um resultado orientado para a objetividade.

Ou seja, ainda que cada pessoa potencialmente emita uma opinião muito particular, ao se analisar múltiplas impressões pessoais de forma compilada, teremos um certo nível de concordância destas impressões com a qual podemos trabalhar. Esse nível de concordância tangencia uma objetividade imprescindível para trabalhar com atributos dessa natureza.

Por fim, é importante frisar que a busca da objetividade de impressões não pode ser confundida com o senso comum, isto é, há uma ideia geral de que um timbre grave costuma gerar uma ideia de seriedade e firmeza e, em contrapartida, uma voz aguda transmite delicadeza ou imaturidade.

Estas ideias podem e devem ser trabalhadas, mas somente como hipótese, pois ainda que haja um senso comum que vincula grave e agudo a determinados nichos e estereótipos, um mínimo rigor científico impede esse tipo de conclusões tão levianas.

Sobretudo nos dias de hoje, nos quais esses chavões e lugares-comuns estão sendo questionados (com toda razão, aliás), é preciso colocar cada caso à prova para ser entendido isoladamente e, principalmente, verificar se a impressão causada no usuário é a mesma buscada pelo designer.

Curtiu o texto? Quer trocar uma ideia sobre design conversacional? É só mandar um e-mail pra redacao.xd@mutant.com.br. Se ficou a fim de trabalhar com a gente, aí é só entrar aqui. E segue também o nosso Medium pra saber quando tem texto novo!

--

--

Adriano Pequeno
Dialograma

Linguista, ator e designer conversacional. Um verdadeiro vira-lata.