Comunicação por Voz

Victor Gabriel
Tendências Digitais
7 min readNov 2, 2018

Comandos de voz vem se tornando cada vez mais comuns no dia-a-dia de uma pessoa, podendo ser utilizados em um smartphone, no carro, ou em outros aparelhos. Devido à sua versatilidade como funcionalidade, acabaram se tornando uma necessidade para alguns, já que permitem com que o usuário acesse diversos comandos através da fala, ao contrário de ter que manualmente chegar até a função desejada.

Audrey, a primeira tecnologia de reconhecimento de voz.

Mistificado por filmes e animações do passado como algo de um futuro distante, a tecnologia na verdade vem sido desenvolvida desde o século 20. O primeiro aparelho documentado com comando de voz foi criado em 1952 por K. H. Davis, R. Biddulph, e S. Balashek; nomeado de Audrey. Sua função principal era o reconhecimento automático de dígitos, dos quais só conseguiu memorizar dez, do 0 ao 9. Além disso, seu uso não era universal; só conseguia identificar certas vozes, e reconhecimento de mais vozes necessitava de mudanças feitas no aparelho, além de uma familiaridade com a voz de seu usuário. Devido a limitações tecnológicas da época, Audrey não era uma grande maravilha comparado ao que temos hoje, porém foi um começo.

Após Audrey, foi criado IBM Shoebox, que entendia até 16 palavras em inglês; e então, em meados de 1980, o HMM (Hidden Markov Model), que mudou a maneira como a tecnologia era desenvolvida. Ao contrário de usar certas palavras que serviam como modelo, tentava reconhecer palavras a partir de sons que se pareciam com palavras. A partir daí, a tecnologia deu um pulo, porém se estagnou até ao redor de 2010, quando Smartphones se tornaram populares — e com isso, a tecnologia chegando até as mãos do público.

Demonstração do IBM Shoebox.

Além de comandos de voz, também existem as conversas por voz através da internet. Seja para jogar ou para se comunicar com outra pessoa que está longe, a tecnologia existe faz algum tempo, afinal, não necessita o reconhecimento da voz sendo traduzido em um comando. Enquanto em desktops seu uso é primariamente para jogos, funções similares existem em smartphones — a função de gravar sua voz ao contrário de digitar uma mensagem de texto em aplicativos de troca de mensagens, por exemplo, simula a função de certa forma; além de que tais aplicativos também oferecem ao usuário ligar para quem está falando com através da internet.

A tecnologia em sí se chama VoIP, ou “Voice over IP”. Foi desenvolvida em 1995 como uma solução para cobranças telefônicas interurbanas ou internacionais, mas seu impacto na sociedade atual vai muito além disso. Criada pela empresa VocalTec, o primeiro programa que permitia duas pessoas conversarem através da internet era chamado de InternetPhone. Após a virada do milênio, porém, surgiu em 2003 um programa chamado Skype, que realizava a mesma função, mas utilizando de conexão ethernet, conseguia uma qualidade de chamada muito melhor do que as criadas anteriores. A partir desse ponto começam a surgir diversos programas que utilizam da tecnologia VoIP, como Teamspeak, Curse, e mais recentemente, Discord.

Interface do Discord, programa de VoIP mais popular em tempos atuais.

Inevitavelmente, a utilização da voz em tempos recentes tem ganhado muito mais destaque sobre a realização de comandos manuais ou a conversa através de texto. Seja para jogar algum jogo com um amigo ou apenas conversar com ele; saber como será o tempo durante o dia ou a melhor rota para certo lugar, tudo se torna mais fácil e prático com o uso da voz.

O uso da voz para a realização de diversas atividades permite com que usuários não percam tanto tempo tentando chegar ao seu objetivo. Usando jogos como um exemplo de como a utilização da voz pode melhorar a experiência do usuário (já que tenho mais familiaridade com a mídia); em MMORPGs (jogos onde você pode jogar com diversas outras pessoas ao mesmo tempo), a conversa por voz é importante devido ao fato de que, em tempos recentes, o gênero tem ganhado um gameplay mais rápido e constante do que antigamente — logo, existe menos tempo para digitar. A opção ainda está lá, mas jogadores preferem conversar através da internet utilizando programas como Discord. É mais prático do que ter que parar seu personagem para digitar algo, e então continuar.

Interface do chat de voz do jogo “Overwatch”.

Outro exemplo são jogos do gênero Shooter. Seu gameplay é naturalmente rápido e não permite que usuários se distraiam para responder mensagens de texto — tanto que jogos recentes já implementam uma função VoIP dentro do jogo; dessa maneira, organização de estratégias com outros jogadores é mais fácil e intuitiva, permitindo que o jogador possa jogar enquanto conversa com aliados.

A utilização da voz, porém, entra em um território estranho quando é criado um jogo cujo foco é a utilização de comandos de voz. Um exemplo é o jogo Lifeline, lançado em 2004 na América do Norte pela Konami — sua mecânica principal é o uso de comandos de voz para guiar a personagem principal através do jogo. Enquanto é uma maneira original de se utilizar a função, devido a tecnologia da época, o resultado acabou um pouco desastroso: a personagem nem sempre entendia os comandos de voz; e nem sempre entendia eles certo, optando fazer uma ação diferente da que você havia solicitado em certas situações. Recentemente, o uso dessa funcionalidade pode ser vista em jogos com um escopo muito menor, onde o jogador deve apenas falar ou fazer algum barulho para que o personagem se movimente, com o volume do barulho indicando a velocidade no qual o personagem irá se movimentar.

Tela do jogo “Lifeline”, com os comandos que podem ser dados para a personagem na parte inferior. No caso, onde ela deve mirar para atirar no inimigo.

No dia-a-dia de uma pessoa que não necessariamente joga jogos a utilização da voz continua forte no meio digital. Assistentes virtuais se tornaram mais acessíveis ao público, e com isso, a utilização da funcionalidade. A Alexa, assistente virtual do Amazon Echo, por exemplo, aceita comandos de voz que permitem a assistente comprar coisas para você, agir como um despertador, falar e ler sobre artigos populares em um site de notícias, e até mesmo ligar e desligar as luzes de sua casa, caso tenha um local compatível com a tecnologia. A maioria destas funções também se encontra em smartphones, junto de assistentes virtuais como a Siri ou Bixby, e para desktops, a Cortana, encontrada em sistemas operacionais da Microsoft. Além de utilizar de comandos, pessoas também utilizam de mensagens de voz muito mais do que digitar uma mensagem em aplicativos de conversa — é mais prático segurar um botão e falar algo do que ter que digitar letra por letra em um smartphone, especialmente para pessoas mais velhas.

Amazon Echo.

A funcionalidade por voz, além de ser mais prática e conveniente para o cidadão comum por remover grande parte do processo de se utilizar uma função, também pode ser útil para pessoas com deficiências motoras — o uso da voz permite que façam coisas que alguém sem esses problemas poderia fazer.

A voz sendo utilizada ao contrário de comandos manuais tem um grande futuro à sua frente. Desde que a função chegou as mãos da população, cresceu absurdamente com mais e mais funções sendo adicionadas com o tempo — os exemplos marcantes mais recentes sendo as assistentes virtuais que ajudam todo tipo de pessoas, mas especialmente, aquelas com deficiências motoras, auxiliando no gerenciamento de um dia-a-dia que acaba cada vez mais corrido com o avanço da sociedade. A conversa por voz segue o mesmo caminho — devido à sua funcionalidade similar a do comando de voz e natureza prática, também tem um futuro claro e com muitas possibilidades — afinal, além de digitar ser uma função que pode demorar tempo ou ser impossível, caso tenha uma deficiência, também não passa emoção.

--

--