As sutis diferenças das interfaces conversacionais de texto, voz ou multimodal
Se tudo é conversacional, o que acontece quando mudamos o tipo de interface?
“O meio é a mensagem.“— Marshall McLuhan.
Quando falamos de experiências conversacionais, a experiência em si acontece através da conversa e as vezes, como o nome sugere, a conversa é a própria experiência.
O que ainda é visto com um pouco de surpresa para algumas pessoas e empresas, é que quando o meio muda a mensagem muda, o conteúdo muda e talvez toda a dinâmica conversacional precisa mudar também. Inclusive, há diferentes tipos de experiências conversacionais e formas de se explorar as possibilidades (e oportunidades) que cada meio conversacional oferece.
Nesse contexto de conversas, o meio é o que chamamos de interface e a mensagem é o conteúdo dessas conversas que podem mudar dependendo do tipo de interface.
Para cada tipo de interface (ou meio), temos um ou mais tipos de soluções ou experiências conversacionais presentes, mas aqui vai um resumo do que você pode encontrar no mercado atualmente:
- Voz: muito conhecida pelas URAs (Unidade de Resposta Audível) de algum número 0800, as soluções de voz evoluíram para outras áreas além do telefone e hoje, nos é comum a gente utilizar o termo VUI (Voice User Interface ou Interface de Voz) para quem lida nesse cenário. Também estão disponíveis através dos assistentes virtuais disponíveis em dispositivos inteligentes como smartphones, Google Home ou a família Echo da Amazon.
- Texto: muito conhecido como os robôs de conversação nos sites ou apps, hoje evoluímos esse conceito para o que chamamos de chatbots. Também estão disponíveis em aplicativos como o Messenger, WhatsApp, Instagram, Slack, Teams, e outros apps de mensagem.
- Multimodal: mistura o conceito de voz e texto e está mais presente nos dispositivos inteligentes com telas. O cenário que isso acontece é quando as pessoas “conversam por voz” e continuam a experiência conversacional na tela do dispositivo inteligente.
Sejam chatbots, VUIs, URA, dispositivo inteligente ou qualquer outro termo, geralmente todas essas interfaces que criam ou permitem experiências conversacionais são abstrações de softwares que existem em um formato conversacional. Isto é, pessoas e empresas podem interagir ou conversar entre si em uma dinâmica conversacional através dessas aplicações e integrações que estão disponíveis em telefones, sites, apps ou até mesmo dispositivos inteligentes.
Não vou falar muito sobre isso neste texto, mas é importante reforçar que também existem outros meios e formas de se criar experiências que vão além de conversacionais. Apenas compartilhando um exemplo muito bacana disso são os robôs humanoides que estão se tornando mais presente em alguns ambientes físicos. Geralmente, essas soluções apresentam uma mistura dos conceitos apresentados acima com as novas possibilidades do robô, como por exemplo: movimentação no espaço físico, respostas com iluminação ou dicas visuais, e gestos ou sinais que os robôs podem fazer com os seus braços.
O que essas interfaces oferecem?
Diferentes formas e tipos de experiências para cada tipo de interface. Contudo, para ter um melhor aproveitamento e oferecer uma experiência conversacional contextualizada, o ideal é considerar os contextos em que essas conversas vão acontecer e a relevância da interface para cada cenário.
É importante entender e analisar o que acontece “antes, durante e depois” de cada conversa, considerando, principalmente, a perspectiva da pessoa que vai estar em contato com essa solução para oferecer a melhor experiência conversacional possível.
Não adianta nada criar uma experiência para o WhatsApp, mas entregar ela dentro de uma interface de voz com o mesmo conteúdo. A conversa fica travada e cá entre nós, não falamos literalmente igual a mesma forma como escrevemos. “Quer um exemplo? risos vs. rs vs. 😅”
De forma resumida, aqui estão algumas formas de interação que cada tipo de interface oferece:
- Voz: considerando os dispositivos inteligentes, hoje é possível que as pessoas ativem e recebam mensagens das empresas ou marcas por voz, sejam estas robotizadas (usando SSML) ou narradas (por talentos de voz).
- Texto: são experiências em que as pessoas recebem mensagens de texto, mídias (exemplo: documentos em pdf, gifs, vídeos ou áudio) e a dinâmica da conversa pode ser empoderada por componentes da interface como botões, menus e outros componentes ou integrações nativas.
- Multimodal: este é uma mistura dos dois últimos conceitos e são encontrados mais em dispositivos inteligentes com telas para experiências continuadas você dá um comando de voz, mas pode interagir com a voz ou com os botões que aparecem na tela do dispositivo que você está usando — podendo ser desde o seu smartphone ou até um Echo Show da Amazon.
Vale a pena dizer que existem outras formas e até mesmo outros conceitos que se encaixam nessa perspectiva de considerar “cenários e jornadas digitais” de clientes finais ou pessoas que vão interagir com esses serviços.
Se você estiver trabalhando em uma consultoria ou numa empresa, aqui vão dois conceitos que podem ser considerados para ajudar você a pensar estrategicamente:
- Omnicanalidade (Omnichannel): estratégia e integrações de diferentes canais de forma que agregue valor na experiência final de clientes
- Experiência de Clientes (Customer Experience - CX): estratégias e formas de analisar a jornada como um todo de clientes de uma empresa, considerando não apenas experiências ou pontos de contato específicos, mas toda a jornada de clientes com uma determinada empresa
Se bem implementadas, as interfaces conversacionais podem estar presentes em todos os pontos de contato da jornada de clientes (CX) de forma integrada e unificada (Omnichannel).
Que tipos de experiências conversacionais podemos oferecer através dessas interfaces?
As oportunidades para experiências e narrativas conversacionais são imensas. O mercado ainda está amadurecendo e encontrando os melhores casos de uso para cada tipo de interface, mas conseguimos ver alguns cenários e tipos de aplicações que fazem “mais sentido” para alguns contextos:
- Voz: há um crescimento de dispositivos inteligentes que podem oferecer experiências conversacionais por voz. Recentemente, a Alexa completou seu primeiro ano no Brasil com mais de 1.400 skills (aplicações desenvolvidas e integradas na Alexa) criadas em português e o Google anunciou uma nova plataforma de Voice Games. Os casos de uso são bastante diversos, mas muitos ainda estão voltados para entretenimento, lazer e acesso a informações. Algumas empresas também estão investindo em integrações com o seus serviços ou outras formas de criar narrativas conversacionais que façam sentido com a empresa, o exemplo disso são as sessões de meditação e jornadas de compra da Natura.
- Texto: assim como as interfaces de voz, os chatbots também estão em forte crescimento no mercado e na indústria como um todo — principalmente devido a transformação digital acelerada pelo COVID-19. Os casos de uso que estão surgindo são bastante diversos e estão em diferentes indústrias com diferentes aplicações, em cenários que até mesmo é difícil de achar que teriam sucesso (como por exemplo, venda de automóveis ou imóveis… isso mesmo, os chatbots estão ajudando na jornada de compra desses itens em escala de milhões de reais já). Criei um repositório com notícias que mostram alguns dados e casos de sucesso de 2020 — também incluem algumas experiências de voz.
- Multimodal: também crescendo como consequência dos últimos dois, mas apenas para abrir a mente das pessoas em como os casos de uso podem acontecer nesse cenário: você dá um comando de voz, mas interage não mais com a voz e sim a partir de uma tela “Alexa, adicione fraldas na lista de compras”. O que está em crescimento nesse cenário são as estratégias de Comércio (Voice Commerce) e Jogos de Voz (Voice Games) através do uso das telas interativas, onde você consegue criar experiências montando uma “página web interativa” tanto em Skills da Alexa quanto nas Actions do Google.
Como podemos construir essas experiências conversacionais aproveitando cada tipo de interface?
O melhor jeito de construir conversas é conversando com e através de cada uma dessas interfaces conversacionais. Com o passar do tempo e experiência acumulada, você vai entendendo os tipos de experiências e cenários em que cada interfaces se encaixa melhor ou não.
Como todas são interfaces conversacionais, entender e gostar de criar experiências conversacionais é a dica principal. Contudo, existem conhecimentos específicos e pequenos detalhes que você pode aprender para desenhar experiências conversacionais específicas para cada meio — fica a seu critério se especializar em um meio específico.
Aqui estão alguns destaques das habilidades ou conhecimentos que seria legal você adquirir com o tempo:
- Voz: saber lidar com voz é importante, mas saber desenvolver o conteúdo certo para essa experiência pode ser um um grande diferencial. Por exemplo, você pode precisar lidar com talentos de voz ou saber desenvolver diálogos considerando SSML ou marcações de palavras que consigam reproduzir o som de uma palavra com o sotaque local.
- Texto: conhecer os limites de cada canal é importante, mas entender a dinâmica e a aceitação do público em cada um deles é grande diferencial. Por exemplo, sabia que no Messenger existe um limite de 20 caracteres por botão do tipo Quick Reply? Ainda no Messenger, sabia que existem animações nativas? Envie um ❤️ ou 🎈 para alguém e veja o que acontece. Olha outra informação legal: você sabia que é possível você criar componentes de UI nativos e dinâmicos no Microsoft Teams? Pois é, a Microsoft tem um projeto de código aberto chamado Adaptive Cards em que os cards podem se construídos em diferentes plataformas utilizando uma estrutura muito simples em JSON — ajudando bastante na automação de processos internos de empresas por conversas ou notificações interativas.
- Multimodal: além de se preocupar com os pontos apresentados em voz e texto, também é importante entender a forma como você pode utilizar as telas ou as diferentes interfaces que você pode encaixar nessa experiência continuada. Por exemplo, o Canvas Interativo do Google, permite você utilizar elementos web, como se fosse uma página HTML. Já na Alexa, é possível você criar Skills com experiências mistas.
Qual interface escolher?
Agora é com você escolher a interface conversacional que faz mais sentido para o problema e o contexto que você está. Tem uma citação do Amir Shevat que resume bem todo esse texto: “[as interfaces conversacionais] são bons martelos, mas nem tudo é prego.”
Embora longo, espero que possa ter esclarecido algumas sutis diferenças (e talvez semelhanças) que cada interface apresenta.