Voice Interface e UX Design: Como anda essa relação?

“Alexa”, “Hey, Siri”, “Okay, Google” — entenda o Voice User Interface (VUI) e como garantir uma boa experiência para o usuário por comandos de voz

Tera
Somos Tera
7 min readJan 21, 2019

--

No último Super Bowl, que decide o campeão de futebol americano da temporada nos EUA, um comercial chamou atenção — Alexa, a assistente virtual da Amazon, perdeu a voz:

O vídeo bombou nas redes sociais, e quem ainda não conhecia a Alexa, passou a conhecer. Ela é oficialmente descrita pela empresa como:

“o cérebro por trás de milhares de dispositivos, incluindo o Amazon Echo”.

Você leu certo: cérebro. Pode ser artificial, mas é inteligente, a moça. No entanto, não é o primeiro e muito menos o único exemplo de Voice User Interface (VUI) que vemos por aí. Antes dela veio a Siri, quem de fato popularizou o recurso, e recentemente outras gigantes como Google e Microsoft estão desenvolvendo também suas versões.

O VUI usa reconhecimento de fala para permitir que usuários interajam com diferentes tecnologias e dispositivos apenas por comandos de voz. A experiência oferece uma forma mais rápida, fácil e geralmente mais divertida de fazer as coisas — principalmente conforme a ciência por trás dela vai evoluindo, aprendendo novos padrões de discurso e permitindo trocas mais naturais entre máquina e humano.

Considere por exemplo ter que fazer um jantar para a família inteira. Enquanto você mexe três panelas com uma mão e corta cebola com a outra (estamos supondo que você é um craque na cozinha), pode simplesmente pedir “Alexa, ajuste o timer para daqui a 20 minutos” e pronto, torta nenhuma vai sair queimada.

Quem diria que apertar alguns botões um dia se tornaria a opção menos conveniente?

O crescimento do VUI

O potencial dos VUIs é imenso e as pessoas estão se dando conta disso. Um chatbot comandado por voz pode facilitar sua experiência escutando música, pedindo pizza, ou até controlando as luzes do ambiente.

Em 2016, 20% das buscas realizadas no Google eram iniciadas por comando de voz e, de acordo com Gartner, até 2020, 30% delas irão acontecer por conversa com sistemas baseados em voz.

Segundo a própria Amazon, algumas tendências prometem fortalecer a expansão do VUI:

1. Web Services e Internet das Coisas: Integrações entre sistemas e aplicações e Internet das Coisas oferecem inúmeras oportunidades para interações por voz. O uso de sensores, por exemplo, pode tornar smart-homes muito mais “smart” com VUI.

2. Acessibilidade: É mais fácil, hoje em dia, buscar conhecimento em campos de aprendizado como reconhecimento automático de fala (automatic speech recognition — ASR), compreensão da linguagem natural (natural language understanding — NLU), conversão de texto para fala (text to speech — TTS) e de fala para texto (speech to text — STT).

3. Hardware compatível: equipamentos físicos já podem suportar o processamento de entrada de voz de campo distante (far-field voice input processing — FFVIP), permitindo uma gama maior de experiências com VUI.

4. Inteligência Artificial: Graças aos avanços em machine learning, interfaces por comando de voz estão cada vez mais aprendendo e se adaptando aos padrões, preferências e circunstâncias das falas dos usuários.

Apesar disso, o que motiva o avanço do VUI não é a tecnologia: somos nós. A fala é um meio fundamental de comunicação em todas as culturas, sendo também o meio primário para construir relações.

Por isso, para melhorar a qualidade da experiência do usuário, precisamos desenvolver máquinas capazes de compreender a complexidade envolvida em tom de voz, atitude, contexto e intenção, com base em histórico e observação de padrões de comportamento. Temos que ir além do roteiro pré-programado. Aí que entram os profissionais de UX.

Como começar em VUI

O UX designer que trabalha com VUI precisa entender todos os meandros da comunicação humana. Ninguém tem muita paciência quando não é compreendido, então usuários esperam fluência e compreensão completa mesmo ao interagir com chatbots e assistentes virtuais.

Além disso, um conhecimento geral de machine learning é importante para conceber e desenhar a interface com base em inteligência artificial. Algumas ferramentas legais que estão ganhando fãs entre designers de UX são a Sayspring e a Voxterity VUI Design Studio.

Hoje já está disponível a qualquer um criar experiências conversacionais por voz para dispositivos como a Alexa e a Siri — seria o equivalente a criar aplicativos para a Apple Store ou para o Google Play, por exemplo. Marcas podem aproveitar esse recurso para integrar seus serviços ou vender produtos pelos dispositivos.

Mas para criar qualquer interface desse tipo, é recomendado seguir alguns passos:

  1. Definir objetivos

É claro que às vezes as pessoas só conversam com chatbots por entretenimento ou tédio (inclusive, se você nunca pediu à Siri para fazer beatbox, tente). No entanto, geralmente, elas têm um objetivo melhor por trás, como pedir comida ou comprar um sapato.

Dito isso, um garçom ou um vendedor de loja também têm seus scripts ou pelo menos boas práticas para atender clientes. A ideia é fazer com que sua interface aja como um deles, por isso saiba com quem está falando e quais podem ser suas intenções. Esse é o ponto inicial para facilitar reconhecimento de contexto, tom de voz, e entender que respostas seu chatbot trará.

2. Planejar a estrutura

Para cada troca com o usuário haverá dois tipos de caminho: os previstos e os imprevistos. Os fluxos de comunicação devem levar isso em consideração para conduzir a conversa de um campo aberto até o cumprimento de um dos objetivos possíveis, afunilando-a por meio de perguntas aos usuários.

Para começar a planejar essa estrutura, um mapa mental pode ajudar muito. Sempre com os objetivos em mente: pontue todos os tópicos que possam surgir e organize-os em grupos funcionais — por exemplo, frases relacionadas aos objetivos, informações extras, ou partes da conversa usadas apenas para torná-la mais leve.

Identificar esses padrões é importante pois eles servem como suporte na hora de montar a arquitetura do bot. No final, claro, todas as relações de dependência e incontáveis combinações entre elas geram uma complexidade inimaginável, mas ter esses fluxos bem feitos garante uma experiência mais natural para o usuário.

3. Escrever o script

Essa é a hora de dar personalidade ao seu chatbot e escrever todo o roteiro de falas. O desafio, claro, é considerar todos os caminhos que a conversa pode tomar dependendo do perfil de resposta do usuário, definido pelas palavras-chave que ele utilizar.

Para isso, a parceria entre um UX designer e um redator é essencial para saber utilizar os termos corretos e garantis uma comunicação fácil, humana e fluída — que são algumas das principais boas práticas para construir uma boa interface:

  • Mantenha a conversa simples

Quais são as mensagens chave e as mensagens secundárias de cada interação?

Usuários não querem ser inundados de informação, querem (e precisam) apenas das informações suficientes para cumprir seus objetivos.

Quando o recurso utilizado é a voz, esse cuidado tem que ser redobrado, porque a escuta é tudo que eles têm. Se você está lidando com assuntos de maior complexidade, atenção triplicada. Isso significa que quanto menos palavras, melhor, ainda que seja importante também equilibrar pequenos detalhes que tornem seu chatbot mais humano.

  • Humanize a interação

Se você já teve uma longa e frustrante conversa com uma máquina de alguma central de atendimento pelo telefone, sabe que não é fácil acertar sempre, mas os avanços em processamento de linguagem natural e machine learning estão deixando o VUI menos robótico e mais gente como a gente.

A voz dá a oportunidade de pequenas injeções de humor e personalidade. O Google Home, por exemplo, é cheio de referências pop, que vão de Jornada nas Estrelas a Sir Mix-A-Lot. Um chatbot que gere identificação, ajuda o usuário a perdoar momentos em que ele não recebe a resposta que buscava, ou a criar afinidade com uma marca.

  • Confirme que uma tarefa foi concluída

Toda ação tem uma reação, e com VUI elas sempre devem acontecer por voz. Imagine, por exemplo, que você está no quarto e pede à sua assistente virtual que apague as luzes do banheiro. Se ela não responde afirmativamente ao comando, você teria que ir até o banheiro para verificar se as luzes foram apagadas, o que destrói o propósito do comando de voz. E se não foram apagadas, como saber o que ela entendeu e executou? A fluidez da interação também depende da clareza na comunicação.

O futuro do VUI

Há pouco tempo, controlar um aparelho por voz era ficção científica. “Her”, filme de 2013, deixou espectadores assustados com as possibilidades da inteligência artificial. Um ano depois, Alexa estava sendo lançada em moldes bastante parecidos.

Desde então, já vimos a Amazon fechar parceria com a Logitech, o que permitirá a tecnologia ser usada em carros da Ford, Volkswagen e Volvo. Enquanto isso, a Samsung e a LG estão lançando refrigeradores com reconhecimento de voz.

Ainda há muitos avanços a serem feitos, mas nunca caminhamos tão rápido. A variedade de contextos em que VUI tem sido usado é impressionante, e tudo indica que ele será um dos responsáveis pela próxima revolução em computação.

Logo poderemos comandar por voz dispositivos no ambiente de trabalho, no quintal de casa, na sorveteria. Até o momento em que VUI nos deixará sem palavras… como ficou a Alexa.

Mas, por onde começar?

No Bootcamp de UX Design da Tera, os alunos trabalham em projetos reais de startups aceleradas por parceiros como Google Campus, CUBO, Monashees. É a sua chance de aprender uma das competências mais importantes da economia digital, estudando com experts que estão na linha de frente da inovação na indústria de tecnologia e aplicando seu aprendizado para casos reais.

--

--

Tera
Somos Tera

Um novo modelo de educação com foco nas principais habilidades para a economia digital: www.somostera.com