A direção de voz em VUI

Adriano Pequeno
Dialograma
Published in
13 min readApr 9, 2021

Quer ouvir o nosso texto em vez de ler? É só clicar no player abaixo!

Pensando nos profissionais de design que atuam com Design de Experiência, há certas particularidades que distinguem o escopo de atuação dos VUI Designers em relação aos demais profissionais desse mercado, como os UI Designers e os UX Writers.

Afinal, como o nome indica, o Voice User Interface (VUI) designer é o profissional que lida com interfaces de voz, como URAs, VDAs e assistentes pessoais. No seu dia a dia de trabalho, portanto, são pressupostos conhecimentos, artifícios e técnicas relevantes aos aspectos de utilização da voz, da fala e da conversação humana. Dentre essas diferenças em sua prática, está a direção de voz ou direção de locução, uma tarefa bastante sensível à qualidade final das interfaces de voz e que não deixa de ser bastante desafiadora para os designers de VUI.

Normalmente esses profissionais costumam possuir formação em design gráfico, publicidade, jornalismo ou relações públicas, e é muito raro que possuam essa espécie de “bagagem artística” como referência para fundamentar esta atividade.

O que é a direção de voz para VUI?

Em resumo, a direção de locução em VUI é o ato de guiar o trabalho de locutores com o intuito de materializar fluxos de conversação humanizados por meio de arquivos sonoros a partir de textos escritos.

Esta atividade, além de assegurar a inteligibilidade dos áudios para o usuário, visa garantir que nestes áudios estejam impressas características discursivas dialógicas, que são mais concretas, como por exemplo o ritmo, os marcadores de função fática ("Alô? Tá me ouvindo?") e demais marcadores de oralidade ("Hmmm, tá bom"), mas também traços dramáticos e expressivos, que são mais abstratos, como a naturalidade, a disposição, a confiança, o acolhimento, a simpatia, o senso de urgência, dentre muitas outras.

Fonte: JK Sloan/Unplash

Esse trabalho artístico é fundamental para a qualidade final das interfaces e é um complemento à tarefa do artista de voz. Enquanto o locutor dá ao produto sua voz, imbuída de elementos que expressam a sua interpretação artística, o diretor atua primeiramente como um ouvido para julgar o que está sendo gravado, e principalmente, como um propositor de dinâmicas orientadas a se obter o resultado que se espera. Tais dinâmicas vão estabelecendo pouco a pouco a modulação das perspectivas dramáticas do locutor, por meio de comandos e testes de possibilidades.

Como diretores de locução, os designers necessitam ter um papel ativo no trabalho de gravação, por serem os únicos agentes capazes de balizar o resultado final a algo próximo ao que foi idealizado no momento da criação das nuances da persona, da redação das fraseologias e do desenvolvimento dos fluxos, adequando cada áudio ao que cada contexto pede e, por fim, garantindo uma experiência humanizada ao utilizador da interface.

Não quero dizer com isso que o diretor de locução deva centralizar sozinho as propostas e decisões em uma sessão de gravação, pois é também tarefa essencial estar aberto ao diálogo, ouvir outras opiniões e dar liberdade à criação artística, mantendo-se atento às propostas e ideias espontâneas que os locutores têm a oferecer. Estas propostas algumas vezes acertam na mosca o objetivo que foi idealizado anteriormente e por outras vezes ainda surpreendem e superam o resultado que era esperado pelo designer-diretor da sessão.

Em suma, mesmo gastando horas e horas de tutano, escrevendo e reescrevendo frases, fazendo anotações e rubricas sobre a interpretação ideal e até passando dias na elaboração de características dramáticas e elementos para emular um diálogo realista (como a utilização de marcadores discursivos ou mesmo de um titubeio no meio da enunciação de uma frase), nem tudo o que é planejado de antemão é necessariamente a melhor solução possível!

Na verdade, por mais que pensemos em milhares de elementos que confirmem a sensação de naturalidade e dialogicidade do usuário ao utilizar a interface, é preciso lembrar que uma característica elementar da língua falada em relação à língua escrita é a sua condição de produção, conforme apontamos no texto As boas práticas da língua falada em interfaces conversacionais.

A rigor, enquanto o ato de escrever constitui algo solitário, e as tarefas de planejar e elaborar o texto são de inteira responsabilidade do autor, a língua falada resulta da tarefa cooperativa de duas ou mais pessoas, num mesmo momento e num mesmo espaço; em outros termos, “é a dialogicidade instaurada pela situação face a face que caracteriza a língua falada”, de acordo com a linguista Ângela Rodrigues.

Assim, é possível notar a grande diferença que a relação de parceria no trabalho entre diretor e locutor é capaz de operar. Ora, se o resultado final esperado do trabalho são diálogos conversacionais, nada mais apropriado à criação e refinamento desta tarefa do que trazer à tona esse intercâmbio de enunciados entre interlocutores que caracterizam uma conversa, a dialogicidade.

É preciso salientar que o designer-diretor da sessão de gravação, além de ser o principal responsável pelo resultado final do produto, é a visão (ou melhor, audição) exterior do que é produzido pelo artista em tempo real; isto é, grosso modo, a capacidade de julgamento em relação ao áudio final é de inteira responsabilidade dele. Contudo, os elementos espontâneos de um diálogo estabelecido são capazes de trazer uma riqueza de detalhes, naturalidade e um frescor ao produto final, que seria impossível (ou quase) de se atingir de forma friamente calculada.

Isso tudo nos leva a um outro tópico, pois se o que foi falado até agora é que a direção de voz é uma atividade artística, há uma série de conhecimentos científicos trazidos dos campos de estudo relacionados à linguística que merecem ser considerados nesse processo para auxiliar nos contornos e nuances estéticas humanizadas dos áudios.

Conhecimentos extraídos dos Estudos de Língua Falada, da Sociolinguística, da Fonética e Fonologia, da Pragmática, da Análise do Discurso Oral, dentre outros campos de estudo, podem (e devem) auxiliar o fazer artístico, uma vez que foram gerados a partir de dados concretos do uso da língua falada em sociedade e podem nos dar pistas decisivas para a naturalização da interface que repercutem na própria relação que ela, a qual se pretende humanizada, estabelece com seu usuário final.

Bom, chega de digressões e vamos ao que interessa! Elenquei aqui abaixo uma série de dicas para contribuir com o processo de direção de voz em estúdio e facilitar (um pouquinho) essa tarefa tão desafiadora.

1. Saiba o que você quer: crie as características e contornos de atuação para a personagem. Rascunhe, rabisque, busque referências, prototipe e teste.

Tendo em mente que dirigir é guiar uma atuação dramática interpretativa, a primeira coisa com a qual devemos nos preocupar é a concepção da atuação dramática, ou seja, por qual caminho essa interpretação deve ser conduzida. É preciso criar essa personagem e suas nuances, pensar em como ela é, qual seu histórico de vida, como ela reage às diferentes situações e, sobretudo, como isso tudo repercute na linguagem dela. É fundamental buscar referências, como uma personagem ou personalidade pública que seja parecida com ela ou se assemelhe a ela em algum aspecto específico.

Afinal, como eu já disse no texto Algumas observações sobre a seleção de vozes em interfaces conversacionais, a voz dá espaço à imaginação do usuário. Ao interagirmos com uma voz sem corpo, ou melhor, uma voz desvinculada de uma imagem, como em uma ligação telefônica ou uma transmissão de rádio, tendemos a imaginar atributos físicos, psicológicos e comportamentais daquela pessoa por meio das características materiais das frequências da voz.

No final de tudo, com os áudios gravados, sempre podemos testar as impressões com pesquisas rápidas para descobrir, por exemplo, como as pessoas imaginam quem está por trás daquela voz ou quais as características mais marcantes que os usuários correlacionam com essa pessoa.

2. Adeque seus textos escritos à língua falada: leia em voz alta e, se possível, grave a sua própria voz para que consiga ouvir e avaliar.

Como já foi explorado extensamente no texto As boas práticas da língua falada em interfaces conversacionais, há diferenças substanciais entre textos escritos e textos falados. Desse modo, parte do trabalho do designer de VUI é realizar uma espécie de tradução para emular diálogos conversacionais. Para tal tarefa, a única maneira de testar esses enunciados é lendo em voz alta para ver se eles “cabem na boca” e se trazem a naturalidade como efeito final.

Inclusive, se você puder gravar a sua própria voz enquanto lê, melhor ainda, pois dessa forma você pode julgar esses enunciados com mais atenção e ouvi-los quantas vezes achar necessário.

3. Rubrique seus textos com a atuação esperada e utilize artifícios para marcar prosódia, ritmo, mudança de intenção, ênfase…

Faz toda diferença utilizar artifícios e estratégias de notação no texto escrito para deixar mais clara a atuação desejada. Isso vai ajudar o locutor a entender a proposta e também o diretor da sessão a lembrar a interpretação que ele desejava no momento da concepção do texto.

Rubricar é, basicamente, inserir comentários sobre a leitura, prosódia ou alguma "sensação" desejada no meio do texto, por exemplo:

"Olá, tudo bem? [sorrindo] [pausa de 5 seg.] Ah, eu tô entendendo que tá tudo bem, né?[falar com entoação de pergunta retórica]. Bom, eu vou perguntar de novo: tudo bem com você?[pausadamente]. "

Além disso, há outras dezenas de possibilidades, como utilizar CAIXA ALTA para indicar aumento de intensidade ou energia na leitura, ou usar negrito ou sublinhado para indicar ênfase em algum trecho.

4. Experimente a inversão de papeis e tente entrar na cabine para ser dirigido por alguém.

Muito se fala em empatia enquanto se colocar no lugar do outro de modo figurativo, mas este não é realmente o tópico aqui. Estamos falando fisicamente da troca de papeis com um locutor, ou seja, é bastante útil para um diretor de voz experimentar entrar na cabine e ser dirigido por alguém.

Desta maneira é possível entender as dificuldades de compreensão dos comandos do diretor, os obstáculos de manter uma dicção clara e bem articulada, os desafios de realizar fisicamente algo que está no âmbito das ideias, além de ter de lidar com a ansiedade, o nervosismo etc.

Aliás, não é preciso ter um “timbre de ouro” nem técnicas vocais sofisticadas, pois a ideia aqui é testar a dinâmica e a comunicação estando na outra ponta do esquema. Em tese, se é possível desta forma compreender as dificuldades de ser dirigido, a própria noção de direção se aprimora.

5. Tenha uma conversa franca com o locutor antes da sessão de gravação.

Se no momento da concepção da personagem são criadas características e contornos de atuação, antes de entrar no estúdio para gravar é bastante válido ter uma conversa franca com o locutor para explicar a proposta.

A ideia aqui é fazê-lo imaginar quem é aquela personagem desejada, tangibilizando, assim, suas nuances e possibilidades de interpretação artística.

É bastante válido também já propor uma primeira leitura do texto para realizar uma avaliação preliminar e até mesmo “apertar alguns parafusos” de antemão.

6. Tenha rigor técnico.

Por rigor técnico eu estou me referindo a algumas condições durante a gravação que não estão ligadas necessariamente à atuação, mas que interferem diretamente no resultado dos áudios finais.

É preciso estar atento, por exemplo, às condições vocais do locutor naquele dia. É possível que ele esteja constipado ou com salivação excessiva por conta de algo que ingeriu (consumir leite ou café antes da gravação, por exemplo, costuma causar pigarro na garganta).

Os locutores costumam dominar esse assunto e sempre andam com sua maçãzinha na mochila, mas de todo modo, não é difícil de encontrar na internet técnicas de aquecimento vocal, além de listas de alimentos recomendados e proibidos. Vale a pesquisa rápida!

Além disso, rigor técnico também se refere às condições acústicas de gravação (como tipo do microfone, distância da parede, ambiência, reflexão etc). Para ter rigor e estabelecer critérios nesse sentido, conte sempre com os maravilhosos técnicos de estúdio, que é a galera especialista nesse ponto. Afinal, da mesma forma que se estabelece uma relação de parceria entre locutor e diretor de locução, é preciso também contar com a colaboração de um profissional que dê conta do aparato técnico de gravação.

7. Para criar conversas e diálogos, é preciso não só ouvir, mas escutar. Desapegue um pouco do texto escrito.

Escutar está além de ouvir, é algo equiparável a “ver” e “enxergar”. Escutar significa ouvir com muita atenção. É só assim que é possível ter percepção, julgar, analisar e fazer comparações para criar um senso crítico.

Enquanto prática corriqueira, é comum que nas sessões de gravação haja uma tendência que o diretor fique acompanhando o que o locutor está lendo/interpretando para verificar se aquele conteúdo está fiel ao que foi idealizado no momento da escrita. Contudo, precisamos nos lembrar que nosso produto é uma interface de voz, e o usuário final não terá um texto escrito como suporte no momento da interação.

Ficar lendo o texto enquanto o locutor interpreta não só aumenta a carga cognitiva do diretor, atrapalhando a análise e a escuta do que está sendo gravado, mas também enviesa o julgamento da compreensão do conteúdo do enunciado somente pela fala. Da mesma forma que assistir a um filme na sua língua com e sem legendas muda a experiência final do usuário, não é possível avaliar um áudio de forma integral e rigorosa se estamos lendo aquele conteúdo via texto ao mesmo tempo.

8. Escutar também se refere a considerar as propostas que o locutor tem a oferecer.

Como já dissemos no tópico anterior, escutar também é sempre estar aberto ao diálogo. Assim, é preciso estar disponível e atento às propostas espontâneas de atuação dos locutores.

Muitas e muitas vezes somos surpreendidos positivamente e há algumas técnicas de direção, inclusive, que consistem em simplesmente explicar a proposta ao artista-intérprete, para que ele autonomamente crie em tempo real os textos finais. Não há como trazer mais naturalidade e frescor do que desta forma!

9. Entenda a flexibilidade de interpretação e amplitude de voz dos artistas.

Esse tópico se relaciona bastante com a temática da seleção de vozes para interfaces, que abordamos no texto Algumas observações sobre a seleção de vozes em interfaces conversacionais. Em resumo, os locutores, assim como todo e qualquer artista, possuem características específicas, diferentes perfis vocais e timbres, potenciais distintos de flexibilidade, capacidades e bagagens técnicas particulares.

Se para um trabalho específico, foi determinado uma personagem adolescente, é preciso encontrar um artista cujo timbre ou modulação vocal soem críveis como a voz de um adolescente. Quanto mais distante a voz estiver daquele perfil, maior será o esforço vocal do locutor e, claro, há limites para esse tipo de artifício.

Assim, para cada caso, o diretor precisa entender com precisão essa amplitude de extensão vocal e de flexibilidade de interpretação para conseguir trabalhar melhor dentro desse espectro, e não exigir, por exemplo, algo que demande excessivo esforço e desgaste a capacidade vocal do artista.

10. Trabalhe a parceria! Proponha sem medo de experimentar (e errar). Só pela dinâmica já vale a pena.

Por mais que você tenha um objetivo muito claro em mente em relação à qualidade de atuação do áudio final, além de muitas vezes ter pouco tempo (Sim, não é novidade pra ninguém que muitas vezes trabalhamos com um senso de urgência enorme nos projetos e curtíssimos períodos de realização da gravação), é muito importante estabelecer uma parceria artística nas dinâmicas de criação com o locutor.

Tal tarefa pode acontecer, por exemplo, com uma sessão de experimentação, na qual você vai testar possibilidades diferentes e ousadas, como ritmos de leitura diversos, pausas, titubeios, movimentações expressivas e corporais, gags e até mesmo personagens variados. As possibilidades são infinitas e estas dinâmicas contribuem inclusive com o tópico anterior.

É importante ainda frisar que este processo pode parecer irrelevante, mas determina, sim, a qualidade final das gravações.

11. Crie artifícios para comunicar o que deseja de forma concreta. Inclusive, dê exemplos práticos com a sua voz.

Não costuma trazer resultados muito positivos dar comandos de direção abstratos, como “Preciso que você faça com mais naturalidade” ou “Faz mais devagar esse trecho aqui”.

É preciso dar referências concretas do que se deseja em cada caso. Para a questão do ritmo, por exemplo, é muito enriquecedor trazer uma relação com a velocidade de um carro: “Olha, nesse trecho aqui, você está a 80km/h e eu preciso que você leia a 60km/h”. Este tipo de comando traz consigo algumas informações preciosas e evita que o enunciado seja lido de forma devagar demais.

É indispensável, inclusive, que muitas vezes você traga exemplos com a sua voz, fazendo uma leitura que apresente as características desejadas na concepção.

12. Dose a naturalidade, a clareza, a animosidade, a energia da atuação, o ritmo de leitura. Tudo isso sem sair da personagem, mas respeitando o que cada contexto pede.

Neste ponto, é importante falar de dois aspectos da personagem. O primeiro deles são as características de estilo mais fundamentais da persona, ou seja, matizes de atuação que serão transcendentes a todo e qualquer texto realizado por aquela personagem, enquanto o segundo aspecto são as variações intrapessoais possíveis dentro daquele espectro de atuação da persona.

Resumidamente, as pessoas reagem linguisticamente de forma diferente de acordo com cada situação e isso deve ser levado em consideração em cada contexto específico. Então, por exemplo, em um contexto de saudação, é bastante válido trazer uma interpretação mais leve e sorridente; contudo, se o contexto é de um estado da interação no qual o usuário será comunicado que está devendo três parcelas de um financiamento, uma atuação com alegria torna-se bastante inapropriada.

O primeiro aspecto se relaciona, portanto, a uma característica fixa (como uma língua presa) e o segundo, a algo potencialmente variável, como as mudanças de humor.

13. Com os áudios finalizados, escute-os de novo (e de novo e de novo e de novo). Não tenha medo de revisitar os textos e refazer as gravações.

A gravação costuma ser a última etapa das esteiras dos projetos, antes deles entrarem no ar. Além disso, são raríssimos os casos nos quais gravamos uma URA inteira em só uma sessão, afinal, os projetos costumam ser bem grandes e contínuos.

Deste modo, é bastante comum que os designers tenham uma boa sessão de gravação, com áudios satisfatórios, mas que ao entrarem no ar em meio ao todo, soem contrastivamente estranhos. Chamamos isso metaforicamente de “degraus”, que consistem basicamente em mudanças abruptas técnicas, de estilística textual ou de registro de atuação, as quais podem ser percebidas pelo usuário no momento da interação.

Assim, é imprescindível que esse tipo de “degrau” seja corrigido. Para isso, temos que sempre tentar visualizar o todo da jornada de interação e refazer aquelas gravações quantas vezes forem necessárias.

Curtiu o texto? Quer trocar uma ideia sobre design conversacional? É só mandar um e-mail pra redacao.xd@mutant.com.br. Se ficou a fim de trabalhar com a gente, aí é só entrar aqui. E segue também o nosso Medium pra saber quando tem texto novo!

--

--

Adriano Pequeno
Dialograma

Linguista, ator e designer conversacional. Um verdadeiro vira-lata.