De Audrey a Alexa: a história da interface de voz

Letícia Souza

Published in

Dialograma

8 min readSep 30, 2020

Quer ouvir o nosso texto em vez de ler? É só clicar no player abaixo!

Alexa, qual é a previsão do tempo pra hoje?

Basta um comando e a resposta vem na hora! Na era da multitarefa, a demanda por praticidade faz com que a tecnologia reinvente as interações entre humano-máquina para que fiquem mais eficientes e naturais. Nesse contexto, a fala se torna protagonista já que, apesar de estarmos habituados aos cliques, ela é fundamentalmente nossa principal maneira de comunicação.

A fala tem o poder de contextualizar, expressar, transmitir mensagens e reduzir atritos, provavelmente, de uma forma mais satisfatória que qualquer outro tipo de interação.

E se nada é tão intrínseco na nossa comunicação quanto a fala, por que não conversar com os computadores?

Essa é uma realidade cada vez mais presente em nossas vidas. Uma pesquisa da Voicebot.ai em 2020 mostrou que mais de 30% da população adulta dos Estados Unidos possuem um alto-falante inteligente. No Brasil, 49% dos usuários de smartphones utilizam os assistentes de voz do celular, e na América Latina, esse número chega a 51%. Isso significa que os usuários estão buscando informações de maneiras diferentes e que a interface de voz vem conquistando cada vez mais adeptos.

Mas afinal, o que é uma interface de voz?

Interface de voz, também chamada de VUI (do inglês, Voice User Interface), é a tecnologia que permite com que pessoas interajam com computadores e dispositivos por meio da voz.

O início de um sonho / Deu tudo certo

Beleza. Que VUI está em alta nós já entendemos. Mas você conhece a história da evolução das interfaces de voz?

Década de 1950

Tudo começou em 1952, quando engenheiros do Bell Labs construíram o Audrey, um Reconhecedor Automático de Dígitos (do inglês, Automatic Digit Recognizer). O Audrey foi o primeiro sistema de reconhecimento de voz, um verdadeiro pioneiro no processo que mudaria a forma que interagimos com as máquinas.

Rudimentar e limitado à tecnologia da época, o Audrey conseguia entender apenas dígitos de zero a nove, e respondia acendendo uma lâmpada correspondente em seu painel frontal. Parece básico, né? Mas para aquele tempo já era um avanço e tanto! Se você acha que não, eu vou te lembrar que a primeira transmissão de TV a cores no Brasil aconteceu em 1972, 20 anos depois da criação do Audrey!

E ainda que inovador, o Audrey nunca foi comercializado, porque apesar de conseguir reconhecer vozes com mais de 90% de acurácia, ele estava longe de ser de uso universal: para manter essa taxa de sucesso, o Audrey precisava estar familiarizado com a voz do usuário. Além disso, ele era uma máquina grande, com mais de 1,80m de altura, cara e com um complexo eletrônico extremamente difícil de ser mantido.

Década de 1960

Com o progresso das pesquisas, em 1962, a IBM demonstrou o Shoebox, uma máquina experimental que fazia aritmética por comando de voz. Ele era capaz de reconhecer e entender 16 palavras, incluindo os dígitos de zero a nove. Ao ouvir os números e os comandos de operação, como ‘mais’, ‘menos’ e ‘total’, o Shoebox imprimia os resultados de operações simples (soma e subtração). Ah, e diferente do gigante Audrey, o Shoebox era bem menor, do tamanho de uma caixa de sapato.

Mas não pense que os estudos se limitaram nesses dois exemplos que dei. Entre a década de 1950 e 1970, outros laboratórios dos Estados Unidos, Japão, Inglaterra e União Soviética desenvolveram hardwares dedicados ao reconhecimento de vozes, expandindo o conhecimento dessa tecnologia.

Década de 1970

E foi entre 1971 e 1976 que aconteceu o salto mais significativo no desenvolvimento das interfaces de voz: o DARPA, Agência de Projetos de Pesquisa Avançada de Defesa dos Estados Unidos, financiou cinco anos do programa Speech Understanding Research (em tradução livre, Pesquisa do Entendimento da Fala), com o objetivo de atingir um vocabulário mínimo de mil palavras. Diversas companhias e universidades participaram do projeto, e assim nasceu o Harpy. Ao contrário de seus antecessores, o Harpy era capaz de entender frases completas e ao todo conseguiu reconhecer 1.011 palavras! Um grande avanço no ramo de reconhecimento de voz.

Década de 1980

Seguindo a linha do tempo, na década de 1980, a IBM desenvolveu a Tangora, uma máquina de escrever ativada por voz. Para funcionar, era necessário treinar a máquina para reconhecer a sua voz e fazer uma breve…pausa… entre… as…palavras. Mas você se engana se acha que pouca coisa mudou desde o Harpy. A Tangora tinha um vocabulário de 20.000 palavras!

Década de 1990

Na década de 1990, a empresa Dragon lançou o Dragon Dictate (ditar, em português), o primeiro sistema de reconhecimento de fala direcionado para as pessoas usarem no computador de casa. Com um vocabulário básico de 30.000 palavras, a empresa prometia que era possível transcrever mais de 40 palavras por minuto. Mas assim como a Tangora, o Dragon Dictate também exigia uma pausa entre as palavras. E tinha um pequeno problema que dificultava o acesso das pessoas a ele: o custo de 9.000 doláres.

Sete anos depois, em 1997, a Dragon aperfeiçoou sua criação e apresentou o Dragon NaturallySpeaking (“falando naturalmente”, em português), o primeiro produto de reconhecimento de fala contínua. Por um investimento de 700 dólares — bem mais em conta que seu antecessor, certo? — , o programa reconhecia cerca de 100 palavras por minuto. Mas como nem tudo são flores, o Dragon NaturallySpeaking ainda exigia um treinamento relativamente longo — cerca de 45 minutos — para aprender a voz do usuário e os padrões de fala.

Em 1996, a BellSouth lançou o primeiro portal ativado por voz, a VAL (Voice Activated Portal). A VAL era um sistema de reconhecimento de voz interativo que dava ao usuário a informação que ele solicitasse. Por meio do telefone, o cliente falava a categoria desejada, por exemplo, “Horóscopo”, e em seguida, “Eu quero Libra”, e então, a VAL passava a informação. A empresa prometia um assistente de telefone disponível e pronto para ajudar 24 horas por dia. Isso te lembra algo? Bem, diferente dos nossos atuais assistentes de voz, a VAL não deu muito certo, pois era imprecisa. Mas a ideia de um assistente particular já era um passo e tanto em direção ao futuro, né?

Década de 2000

O progresso do reconhecimento de voz atingiu um platô, e até então, o principal desafio no reconhecimento de voz era a disponibilidade de dados e a habilidade de processá-los de maneira eficiente. Mas em 2008, o nosso velho conhecido Google apresentou a sua nova invenção: o aplicativo Google Voice Search (em português, pesquisa de voz) para iPhone, que adicionava em suas análises dados de bilhões de pesquisas para melhor predizer o que o usuário estava tentando falar.

Em 2010, o Google adicionou reconhecimento personalizado ao Voice Search dos celulares Android para que o software pudesse gravar as pesquisas por voz dos usuários e produzir um modelo de fala mais assertivo. No ano seguinte, o Voice Search foi adicionado ao browser Google Chrome.

Para termos uma perspectiva do caminho que percorremos até esse ponto da história, lembra do Audrey que entendia apenas dez palavras (os dígitos de zero a nove), e como gradualmente fomos aprimorando o reconhecimento de voz? Bem, agora o sistema de pesquisa por voz em inglês do Google incorpora 230 bilhões de palavras a partir de pesquisas reais dos usuários. Uau, né?

Década de 2010

Depois do sucesso do Google, foi a vez da Apple lançar, em 2011, sua assistente virtual no iPhone 4S. Muito além do reconhecimento de voz, a Siri chegou com uma inteligência artificial que possibilitava conversas — quase naturais — entre ela e o usuário. Mas o grande diferencial na época foi que finalmente deram características humanas para um robô: assim como nós, a Siri tem uma personalidade!

Essa parte da história já é bem mais próxima da nossa época. Então fazendo um breve resumo sobre a corrida dos assistentes virtuais: Em 2012, o Google lançou o Google Now como uma extensão do Google Search. Em abril de 2014, a Microsoft apresentou a Cortana, originalmente disponível para Windows Phone. Em novembro do mesmo ano, a Amazon apresentou a Alexa. E aqui temos uma novidade: a assistente virtual da Amazon não estava disponível para celulares, computadores ou outros dispositivos já existentes. A Alexa foi criada para funcionar dentro de um alto falante inteligente feito pela Amazon, o Echo, que posteriormente se integraria e se conectaria com outros acessórios da casa.

Depois da Amazon, outras marcas lançaram seus próprios alto-falantes inteligentes: Google, Apple, Microsoft, Alibaba, Baidu, Xiaomi. É um mercado crescente, que em 2019 alcançou a incrível marca de 28,6 milhões de unidades de alto-falantes inteligentes vendidos!

Tá, e agora?

Bom, o aumento no número de vendas e a incansável busca pelo desenvolvimento de dispositivos de voz cada vez mais inteligentes refletem o desejo das pessoas por uma mudança na forma de interação. As pessoas querem falar!

Uma pesquisa da iProspect mostrou que 86% dos usuários na América Latina utilizam assistentes de voz por ser mais rápido do que escrever, 50% consideram mais fácil do que escrever, e 36% acreditam que os assistentes de voz os fazem mais eficientes.

E com isso surge a oportunidade das empresas se adequarem para atenderem aos seus consumidores. A Mutant, empresa líder em experiência do consumidor, transformou o mercado de atendimento ao cliente com a criação de interfaces de voz humanizadas, que não somente viabilizam uma comunicação satisfatória, mas também falam a mesma língua do cliente e se aproximam ao máximo do atendimento humano, garantindo uma interação mais fluida, empática e produtiva.

Muito além do entretenimento, o reconhecimento de voz facilita a comunicação, economiza tempo e recursos, e aumenta a produtividade dos usuários. Por isso, podemos esperar que essa seja uma tecnologia cada vez mais presente em nossas vidas, remodelando a forma que vivemos nossas rotinas, realizamos nossas atividades e resolvemos os nossos problemas.

Veja também:

As boas práticas da língua falada em interfaces conversacionais

medium.com

Antes do Manifesto, a Manifestação

Oi. Eu sou o Pedro, trabalho com Design Conversacional desde 2014 na Mutant e já atuei em diversos clientes, em…