A próxima década conversacional

A década que passou foi a mais relevante para interfaces conversacionais, mas o que podemos esperar a partir de agora?

Rodrigo Scotti
Bots Brasil
9 min readJan 20, 2021

--

Em 2021 completará 10 anos que comecei a trabalhar com interfaces conversacionais. Há 10 anos atrás, o iPhone e a tecnologia de Cloud ainda eram uma novidade, pouco se falava em Big Data e você podia ouvir sua playlist bacana no Grooveshark enquanto navegava no seu leitor de RSS. O Facebook tinha sacramentado o destino do Orkut e talvez alguns poucos amigos tinham WhatsApp e Waze instalados no celular.

O ímpeto de trazer à realidade um jeito mais simples de se relacionar com as máquinas gerou minha primeira startup, em 2011. Essa primeira empreitada foi um app que consolidava notícias e informações de redes sociais para criar um vídeo personalizado — contei um pouco dessa história no InterCon 2016.

Informativo sobre o 24horas da Veja, no primeiro momento aparece uma interface conversacional apresentando a agenda da pessoa e encerra sugerindo ouvir notícias no 24 horas da veja.com

Direto do porão da minha casa, na Vila Mariana nosso time desenvolvia tecnologia para trazer interfaces naturais e conversacionais para o mercado. Um desses experimentos foi um assistente baseado em comandos de voz que customizávamos para empresas.

A Nama surgiria três anos mais tarde, em 2014. Tentamos abordagens diferentes como tótens e até espelhos digitais e, embora as iniciativas fossem relevantes, acabamos desistindo do projeto devido nossa percepção sobre a maturidade do mercado na época.

Porém, um novo fator despontou e foi fundamental para mudar o jogo: o efeito Whatsapp. Em 2015 o app ultrapassou as redes sociais como plataforma de interação com usuários ativos. Esse foi um marco relevante, indicando que uma nova cultura conversacional estava se desenvolvendo.

Para lidar com conversas mais complexas, como as via mensageria, criamos o framework da Nama para viabilizar conversas mais estruturadas do que apenas comandos de voz, como eram nossas abordagens anteriores. Entramos com tudo em chatbots e, desde então, não paramos nossas pesquisas e desenvolvimento para evoluir as ferramentas para desenvolver interfaces conversacionais.

Atualmente no mercado em geral, temos um cenário em que o “conversacional” se consolidou. Só no Brasil, empresas atuando neste segmento movimentam cerca de 2 trilhões de reais em fusões, aquisições e investimentos em soluções conversacionais.

Segundo o Panorama Bots Brasil de 2020, o 76% das empresas de chatbots sentiram aumento da demanda, transacionando um esperado de 2,2 bilhões de mensagens por mês. Na Nama, identificamos um aumento de 800% do uso de nossa API.

O que esperar para o início dessa nova década e o que podemos nos preparar para construir em conjunto?

Avanços recentes desencadeiam uma complexa malha de impactos da IA na sociedade, economia, política e ciência. Muitos deles exploramos na série Hey, A.I., um trabalho de dois anos entre a Nama e a consultoria Zero 42. Este mapeamento, dividido em 10 capítulos, ajuda a compreender os principais problemas de IA e suas possíveis soluções.

Para onde vamos caminhar?

Mais que previsões, a idéia aqui é propor uma reflexão sobre os principais pontos de impacto, em médio e longo prazo, na próxima década, envolvendo IA e interfaces conversacionais e com o foco principalmente em experiência do usuário.

Conversacional como padrão

O Brasil assimilou rapidamente as evoluções em torno do WhatsApp. Instalado em 99% dos aparelhos, o app virou uma solução completa para todos, seja em uso pessoal, empresarial ou governamental.

Imagens de conversas no WhatsApp com conteúdos ricos e novas funcionalidades, como um exemplo de um pagamento realizado por uma conversa no WhatsApp.

Marcas e empresas viram esse canal como obrigatório para alavancar seu crescimento, e o lançamento do WhatsApp Business API facilitou o acesso à automação conversacional. Durante o início da pandemia, empresas que já operavam atendimento com bots no WhatsApp sentiram muito menos fricção com a repentina mudança de realidade imposta pela crise.

A alta adesão do canal sustenta o crescimento de uma economia conversacional, com mais empresas utilizando o canal e mais transações acontecendo por meio de mensageria.

Em junho de 2020, o WhatsApp anunciou que passaria a receber pagamentos e fechou uma parceria com a Cielo. Há expectativa para destravar o grande fluxo de transações que serão assistidas ou realizadas através de conversas. O impulso vai de encontro com tecnologias bancárias mais modernas como o Pix e, claro, criptomoedas.

Ter uma estratégia e operar de forma conversacional com clientes virou obrigatório para empresas operarem seu atendimento ao público interno e externo seja em nível institucional e governamental.

Para ganhar escala no atendimento via mensageria ferramentas de chatbots são imprescindíveis e isso vai gerar um desenvolvimento ainda maior do setor, com mais ferramentas, soluções para o público final e o mercado como um todo.

IA e linguagem natural

À medida que produzimos avanços para compreender todas as possíveis dimensões da comunicação humana, estamos resolvendo problemas difíceis da computação e nos aproximando cada vez mais de uma AGI (Artificial General Intelligence — uma IA que consegue racionalizar e resolver diversas tarefas de forma similar a um humano).

Os últimos 3 anos foram impressionantes para o desenvolvimento de NLP. Novos serviços, novas abordagens de desenvolvimentos e principalmente novas arquiteturas como BERT e GPT-3 pavimentam um caminho de evolução sem precedentes na área.

As arquiteturas de NLP, compatíveis com o atual estado-da-arte, estarão cada vez mais complementando soluções de interfaces conversacionais para diversas aplicações na próxima década.

A cada novo modelo proposto, existe uma adaptação natural do ponto de vista de produto e engenharia para entender o novo, comparar com alternativas e fazer a decisão de mudança para modelos superiores.

A maioria dos modelos de linguagem mais novos e mais comentados na comunidade são baseados em transformers e tiveram seu treinamento inicial com bases de dados de tamanho colossal e consumiram muito tempo e dinheiro em processamento.

Novos modelos com propostas de funcionalidade multiuso e mais universais estão surgindo, ou seja, arquiteturas que conseguem diversos problemas que a linguagem humana traz em contextos e situações mais complexas. Um exemplo de resultado prático esperado de toda essa evolução, além da melhora na precisão da compreensão da linguagem, são respostas auxiliadas por geração de linguagem natural (NLG) e personalização de diálogos.

As novidades que estão surgindo consomem bastante dados e processamento, além disso, rodar essas estruturas SaaS de forma escalável exige investimento e visão de futuro. Porém, será um movimento que veremos aos poucos acontecer em diversas soluções de interfaces conversacionais no mercado.

Pessoas Sintéticas

Fotos de avatares assistentes virtuais muito próximas ou semelhantes a fotos de pessoas reais.

Se essa década foi marcada por vozes novas como da Siri, Google e Alexa, dispostas em caixas de som inteligentes espalhadas pela sua casa, na próxima veremos a cara desses assistentes.

No fim de 2019 a Samsung anunciou o Neon, projeto que impressionou ao mostrar como uma IA generativa poderia criar avatares hiper-realistas em alta-definição, baseado em modelos de ML que aprenderam com imagens de pessoas reais. A solução é pensada não só para dispositivos móveis, mas também para tótens que podem ser instalados em lojas e saguões, por exemplo, trazendo um reforço extra para o atendimento ao público geral.

Num ambiente com inovações como telas flexíveis e translúcidas fica curioso ver que estamos trazendo para a realidade uma aplicação muito similar à exibida na cena do filme Máquina do Tempo (Time Machine, 2002), em que o ator principal viaja para o futuro e se depara com um avatar que lhe auxilia na biblioteca.

Avanços consideráveis foram feitos no campo da síntese de voz, agora é possível criar uma voz muito mais natural que pode ser usada para múltiplas aplicações e com um esforço menor que abordagens anteriores. Evoluções como o WaveNet consideram até a pausa e respiração na hora de recriar uma voz. Esse é um salto considerável de técnicas anteriores e pode ser combinada para clonar a voz de uma pessoa com apenas 5 segundos de sample.

Tudo não é só incrível, mas também mostra que muito em breve poderemos sintetizar avatares que podem soar com quem quisermos — e será difícil distingui-lo de um personagem real, abrindo diversas portas para personalizações cada vez mais profundas na experiência do usuário.

Conversas e Contextos Compartilhados

A evolução dos hardwares seguirá de forma a ajudar em experiências mais imersivas. De telas com maior refresh até Edge AI, tudo isso nos diz que realmente estamos entrando de cabeça na computação ubíqua e numa era onde redefiniremos o que é experiência do usuário.

Um olhar para o futuro que gostaria de ver acontecer nessa década com interfaces conversacionais é o protagonizado por Joaquin Phoenix no filme Ela (Her, 2014).

Na obra de arte do Spike Jonze, o ator compartilha uma conversa pessoal com sua assistente de IA e com um personagem de videogame.

Uma experiência de jogo imersiva em que você consegue conversar com o personagem do jogo e outra entidade digital ao mesmo tempo, sobre tópicos que estão fora dos limites iniciais da aplicação, mostra o quão complexo pode ser a engenharia por trás de uma interface conversacional. Assistir essa cena em 2014 e assisti-la em 2021 são experiências completamente diferentes para quem acompanha o mercado.

Nesse sentido, ainda é marcante a apresentação de alguns anos atrás do Google Duplex, que mostrou como os WaveNets junto com uma estrutura de bots com machine learning que conseguiram fazer ligações para marcar compromissos e reservar mesas de restaurantes de uma forma impressionantemente natural.

Isso é um exemplo de que são poucas as barreiras de canal ou contexto para o estado da IA conversacional atual. Novos dispositivos aliado a interações mais complexas com bots podem ser chave para construção de um ambiente virtual de colaboração.

Foto promocional do Magic Leap onde três pessoas estão analisando uma planta de uma cidade com diversas informações contextuais em realidade mista.

De uns anos para cá óculos de realidade virtual e realidade aumentada como o Magic Leap estão causando uma mudança de paradigma em imersão de experiência, permitindo movimentos livres e controles por voz e joysticks, transformando a casa do usuário, literalmente, em um escritório virtual.

Esses dispositivos serão mais parte da nossa rotina, principalmente no mundo de trabalho remoto pós-covid. O movimento abrupto que forçou muitos a organizarem um espaço de trabalho em um local pessoal já disputado. Esse tipo de tecnologia pode ampliar a experiência de trabalho, assim como colaboração, durante o home-office e desenhando enormes oportunidades para esse mercado.

Novos paradigmas

Se tem alguém que está apostando alto no potencial tecnológico humano em curto prazo é Elon Musk. Por trás de outros empreendimentos de alta tecnologia, como Tesla e SpaceX, Elon também esteve envolvido no OpenAI, empresa responsável pelo GPT-3 e o Neurallink que, segundo a empresa, atua no desenvolvimento de interfaces cérebro-máquina de banda-larga ultra rápida para conectar humanos e computadores.

Os implantes foram inicialmente criados para ajudar pessoas com paralisia a acessar computadores e celulares. Porém, o plano é mais ambicioso e já prevê não só o auxílio no tratamento de inúmeras condições cerebrais, mas também a expansão desta interface com maior acesso a áreas do cérebro e informações neurais. Isso poderá mudar fundamentalmente nossa visão de mundo e permitir uma realidade só antes vista em obras de ficção.

É esperado que nessa nova década a nossa capacidade de interagir diretamente com o cérebro humano para criar interfaces mais eficazes com a máquina chegue num patamar sem precedentes. E isso não só irá nos fazer reinventar o desenho de interfaces e experiências, mas também fortalecer algumas ideias sobre o desenvolvimento da humanidade.

A trajetória da interação humano-máquina caminha para uma naturalidade cada vez maior.

Não é apenas uma técnica, um modelo ou uma solução que será a bala-de-prata de chatbots ou interfaces conversacionais. É uma combinação de iniciativas de pesquisa, desenvolvimento, investimentos e até comportamentos sociais que definirão essa nova década conversacional.

As tecnologias para criar soluções e experiências impressionantes já foram desenvolvidas na década passada. O mais excitante é saber que existem iniciativas muito avançadas no mundo todo para trazer uma comunicação mais fácil e acessível nos meios digitais.

A acessibilidade de soluções de chatbots foi fundamental para os negócios operarem na pandemia e permitir que milhares de pessoas acessassem seus serviços: de conta de luz a delivery de comida.

Nos próximos 10 anos, espera-se que os avanços permitam não apenas a expansão do acesso a ferramentas inteligentes, mas também que as máquinas se pareçam e se comuniquem de forma mais fluida e natural conosco no dia-a-dia.

À medida que novas formas de interagir com as informações surgem, também redefinimos qual é o ideal de robô que esperamos um dia conversar e consequentemente os novos paradigmas que veremos na interação com usuários nessa nova década.

Imagem com “uma ilustração de um cérebro e gráficos do tipo streamgraph” e o título deste artigo em destaque “a próxima década conversacional”.

Este artigo faz parte da série 21 em 2021 do Bots Brasil ✨

Compartilhe com pessoas da sua rede, deixe um like, um comentário e para conferir os outros 20 textos da série da comunidade, acesse: https://bit.ly/2021botsbrasil

--

--