Qual a impressão que a voz do seu robô transmite na interação com o usuário?

Published in

VUI.BR

5 min readNov 25, 2021

Texto escrito em parceria com Adriano Pequeno.

Numa época em que a automatização dos serviços, como os assistentes pessoais inteligentes, os chatbots e agentes virtuais avançam tecnologicamente em um ritmo bastante acelerado, temos que observar com atenção como a evolução qualitativa das interações com os usuários se apresenta no mercado.

Em resumo, não é possível sequer enxergar valor em um serviço que despreze a premissa de estabelecer uma boa interface com o usuário. Em um paralelo simples, seria como se inventassem o melhor computador do mundo, mas que ninguém fosse capaz de utilizar.

De modo geral, as melhorias na interação sempre devem levar em consideração a intuitividade por parte do usuário, ou seja, a capacidade de que a utilização seja tão clara e objetiva que simplesmente flua de forma automática, por mais que o serviço jamais tenha sido utilizado. Uma boa usabilidade, por excelência, gera tamanha familiaridade e identificação com o usuário, que despreza a necessidade de leitura de um manual ou mesmo um período de aprendizagem e adaptação.

Seguindo essa mesma lógica, mas pensando especificamente nos assistentes virtuais, quais seriam as melhorias decisivas na interface deste serviço? Ora, se a interação entre usuário e assistente virtual é realizada pelo meio verbal, não há caminho que não aponte para uma espécie de naturalização desses diálogos, que busque mimetizar um diálogo conversacional humano em todas as suas características, traços e níveis de interatividade. Logo, se os agentes virtuais buscam atender às necessidades dos usuários que, atualmente, são realizadas por atendentes de call centers, o caminho para naturalização da ferramenta deve buscar os elementos característicos deste contexto, além, é claro, de procurar melhorar a jornada do cliente o quanto for possível.

Se nos call centers, em teoria, qualquer pessoa consegue trabalhar, isto é, qualquer voz pode atuar fazendo ou recebendo ligações com a premissa de suprir as necessidades dos usuários, ter uma voz “bonita” não é requisito para essa profissão. Da mesma forma, o talento de voz utilizado em um agente virtual não necessita ter um timbre de radialista ou de locutor profissional para imprimir este efeito de naturalidade.

Então, podemos usar qualquer voz para um assistente virtual? Sim e não, pois há outras determinantes nesta equação que podem garantir melhorias significativas à jornada do usuário, como por exemplo, a clareza da pronúncia ou da dicção.

Para ser exato, ao se produzir o discurso de um assistente virtual, devemos sempre levar em consideração um jogo de forças entre a naturalização e a clareza para que se garanta a compreensão do usuário e se preserve uma experiência conversacional, pois vivemos em um país de proporções continentais, onde as variantes do idioma são inúmeras e dependentes de fatores socioculturais complexos (como idade, gênero, localização geográfica, hábitos culturais etc). Desta forma, se a interação da nova tecnologia aposta somente na humanização, mimetizando um discurso totalmente humanizado, este discurso só irá representar uma pequena parcela de uma população tão diversificada como a brasileira e acabará sendo específico demais para compreensão de uma parcela dos usuários.

Então, a utilização de locutores profissionais é totalmente recomendada já que garante melhor entendimento por parte do usuário? Sim e não! Os locutores, afinal, possuem técnica de dicção e prosódia com o intuito de garantir a compreensão de seus interlocutores, mas por outro lado, estes mesmos atributos afastam o usuário de uma experiência conversacional humanizada, já que tanto nos call centers quanto no dia a dia, as pessoas não se comunicam como locutores. Então, a única saída é realizar uma direção do talento de voz criteriosamente comprometida com o equilíbrio entre a naturalidade e a clareza, dosando, sobretudo, vícios de locução, registro de atuação e cadência rítmica, buscando garantir expressividade como efeito de uma interação humanizada. Além disso, é fundamental a seleção de uma voz adequada à persona da marca, mas este assunto será abordado com detalhes em um próximo artigo.

Mas o que leva uma voz a ser considerada expressiva?

Sabemos que, dentro dos estudos da fonética e da fonologia, o campo da prosódia ocupa-se da entonação, do volume e da acentuação das palavras e orações, porém, esta não é a única preocupação que devemos ter ao se selecionar e, sobretudo, ao se dirigir um talento de voz, já que há todo um universo da expressão a ser explorado, que age por meio das tonalidades afetivas que causam certos efeitos no interlocutor.

Isto é, se a prosódia dá conta da clareza, só a expressividade pode dar conta da naturalidade e de outros atributos pertinentes ao registro de atuação do talento de voz. Por questões didáticas, podemos separar a expressividade em dois níveis: o primeiro, mais superficial, corresponde especificamente à naturalidade. Contudo, há outro nível mais profundo que pertence ao registro de atuação, ou seja, a um estilo que baliza as características pessoais e suas nuances que devem ser construídas e executadas de acordo com atributos elencados a partir da persona da marca.

O primeiro nível é mais objetivo, pois trata da seleção e direção de locutores, que devem estar voltadas à tarefa de fazer com que o texto jamais pareça “lido”, artificial, mecânico ou monótono. Neste nível também será buscada a cadência rítmica de um diálogo humano, pois este ponto, junto com a entonação, é um verdadeiro divisor de águas entre a fala robotizada e a fala humanizada.

É muito importante, de antemão, ter em mãos um texto que pertença ao gênero oral da linguagem, pois, caso contrário, esta locução jamais soará como natural, embora possua clareza. Por isso mesmo, é preciso entender que a separação entre níveis de direção é algo abstrato, que só serve ao aparato didático, mas que na prática, se trata de algo indissociável.

Já o segundo nível trata da atuação em si e leva em consideração fatores absolutamente abstratos e critérios que pertencem à esfera subjetiva. Aqui, conta muito mais a impressão que a voz transmite do que qualquer outra coisa.

A direção do talento de voz é algo semelhante a de um ator de teatro ou de cinema. Deve-se portanto, explorar o carisma, a simpatia, a solicitude, a firmeza, a confiança, entre outros atributos com um intuito de que estas características fiquem impressas no áudio em questão e, sobretudo, atendam aos padrões definidos previamente para a persona criada para o cliente.

O que há de mais fundamental nesse ponto é que, por mais que se trate de uma atividade que se desdobrará em um produto de impressões subjetivas, ao colocarmos à prova estas impressões, como por exemplo, por meio de um teste, haverá um resultado orientado para a objetividade. Por mais que cada pessoa potencialmente tenha uma opinião muito própria e particular, ao se analisar opiniões de pessoas, teremos um certo nível de concordância destas impressões com o qual podemos trabalhar. Esse nível de concordância tangencia uma objetividade imprescindível.

Por fim, é importante frisar que a busca da objetividade de impressões não pode ser confundida com o senso comum, isto é, há uma ideia geral de que um timbre grave costuma gerar uma ideia de seriedade e firmeza e, em contrapartida, uma voz aguda transmite delicadeza ou imaturidade. Contudo, estas ideias podem e devem ser trabalhadas, mas somente como hipótese, pois ainda que haja um senso comum que vincula grave e agudo a determinados nichos e estereótipos, existem determinantes que impedem resoluções de forma tão simplistas. É preciso colocar à prova para entender isoladamente cada caso e, principalmente, verificar se a impressão causada no usuário é a mesma buscada pelo designer.

Publicado originalmente em 4 de outubro de 2018, por Sueliton Ribeiro e Adriano Pequeno

Qual a impressão que a voz do seu robô transmite na interação com o usuário?

Written by VUI.BR