Computação ubíqua e assistentes de voz

Lia Rodrigues
Bots Brasil
Published in
7 min readJan 20, 2021

Aviso: Esse texto é mais uma reflexão de da relação conversacional entre pessoas e máquinas, não trago respostas, apenas mais perguntas. Como diria Tom Zé: "Eu tô te explicando / Prá te confundir / Eu tô te confundindo / Prá te esclarecer"

Acordo desligando os múltiplos alarmes no smartphone, dou bom dia pra assistente virtual que mora numa bolinha auto-falante no meio da sala, ela me responde, diz a previsão do tempo e o que tenho na agenda para hoje.

Queria pedir que ela fizesse meu café, mas enquanto isso ainda não acontece peço pra ela colocar uma música e vou fazer meu café manualmente.

Não tenho uma máquina de café em cápsula mas fervo o café em uma chaleira elétrica, que é o mais moderno que chego nesse ritual tradicional de “passar o café”

Nisso, tendo as mãos ocupadas, mando uma mensagem para os amigos usando o microfone de digitação por voz (speech-to-text) do teclado, que censura meus palavrões, que são apenas vírgulas no idioma carioca.

Depois faço uma transferência ou pago um boleto falando diretamente com o chatbot do meu banco no Whataspp.

A imagem mostra o ator Joaquin Phoenix no filme Her, ele expressa um leve sorriso enquanto olha pela janela
A imagem mostra o ator Joaquin Phoenix no filme Her, ele usa bigode, óculos, fone e camisa quadriculada. Expressa um leve sorriso enquanto olha pela janela.

Finalmente começo a beber meu café. Penso que, nesse ano tão estranho e tão cheio de mudanças, numa época com muitos retrocessos, ainda assim estamos vivendo um tal futuro. Sigo pensando na Computação Ubíqua e nesse futuro que é o agora.

“O termo Computação Ubíqua foi originalmente cunhado por Mark Weiser em 1991, no seu artigo “O Computador para o século XXI”, para se referir a dispositivos conectados em todos os lugares de forma tão transparente para o ser humano que acabaremos por não perceber que eles estão lá.” (canaltech)

Em 1991 eu tinha 2 anos, e as Interfaces de Voz (ou Voice User Interfaces — VUI) pertenciam ao campo da ficção científica. Hoje essa solução invisível está em vários lares, e agora a assistente está aqui me contando piadas.

Cena da série Years and Years onde a família está sentada e concentrada no assistente virtual Signor
Cena da série Years and Years onde a família está sentada e concentrada no assistente virtual Signor

Em um assunto relacionado, a Janaina Pereira, referência na área de VUI está lançando uma série de artigos pessoais sobre como chegou nessa posição e logo no primeiro texto ela compartilha conosco como foi o resultado da primeira entrevista para a área, onde ela deu uma aula de sociolinguística, explicando de maneira perfeita a diferença da língua falada e escrita.

Ela contou do prestígio que a língua escrita recebe com sua rigidez ilusória, esse gesso do prescriptivismo, um “conceito que descreve a imposição de normas arbitrárias à língua, frequentemente contrárias ao uso corrente desta”

Marcos Bagno, a grande referência no campo da linguística e sociolinguística no Brasil nos diz que:

“A língua é um enorme iceberg flutuando no mar do tempo, e a gramática normativa é a tentativa de descrever apenas uma parcela mais visível dele, a chamada norma culta. Essa descrição, é claro, tem seu valor e seus méritos, mas é parcial (no sentido literal e figurado do termo) e não pode ser autoritariamente aplicada a todo o resto da língua — afinal, a ponta do iceberg que emerge representa apenas um quinto do seu volume total.”

O psicólogo Steven Pinker e o texto: “Linguagem não é: 1. Linguagem escrita. 2. Gramática correta. 3. Pensamento”
Consta na imagem o psicólogo canadense Steven Pinker, um homem branco de olhos claros e cabelo grisalho. Acompanha a imagem o texto: "Linguagem não é: 1. Linguagem escrita. 2. Gramática correta. 3. Pensamento"

Não tem nada de errado em aprender a gramática normativa e ser capaz de escrever de maneira formal, mas não é sobre isso que quero falar aqui. Aqui quero falar de conversar, e da língua falada.

Não há uma maneira certa ou errada de falar, a língua é viva, as línguas evoluem com o tempo, novas palavras surgem ou recebem novos significados. As variações linguísticas são essenciais à língua, e se devem a diferentes contextos históricos, sociais, geográficos, estilísticos e condições do meio em que estão inseridos. É a gramática tem que se adequar ao que se fala, e não o contrário.

As línguas mudam de acordo com quem fala. Duas pessoas podem não se comunicar de maneira igual devido a vários fatores como idade, sexo, local de origem, nível educacional, além da adaptação feita em diferentes situações. Se o objetivo fundamental da linguagem é a comunicação, os falantes da língua adaptam e fazem ajustes de acordo com suas necessidades.

E sendo o objetivo da comunicação transmitir informação e o entendimento dessa informação, de uma pessoa ou grupo para outra pessoa ou grupo, se essa mensagem foi transmitida e entendida o objetivo foi realizado.

Mas além da questão da variação linguística, temos também a Coarticulação:

“Modo como o sistema de fala organiza a produção de sequências de vogais e consoantes, envolvendo mais do que um ponto do trato vocal, entrelaçando os movimentos articulatórios necessários para a produção de cada fone (unidade menor dos sons da fala, tal como os ouvimos) num todo coerente.

Note-se que os “r” de “cara” e de “carta” são dois fones percetivamente diferentes pelo facto de um preceder uma vogal e o outro uma consoante oclusiva mas correspondem a um único fonema. Têm o mesmo valor fonológico, isto é, não permitiriam distinguir entre palavras na nossa língua.“ (Glossário PNL 2027)

Na linguagem falada existem letras que emitem sons (fonemas) que podem ser pronunciados muito claramente em certas palavras e as mesmas letras podem ser até omitidas na pronúncia em outras palavras, assim como existem letras e conjunto de letras diferentes que podem ter o mesmo som (S, SC, SS, Ç) ou letras que podem ter sons bem diferentes dependendo da palavra que se encontram (como L e X)

E mais um fator é que não falamos palavra por palavra com pausas equivalentes aos espaços que colocaríamos em um texto. A segmentação e limite das palavras não é claro.

Nossa fala tem ritmo, quase como um canto, e aí entra a Prosódia:

No Dicionário de Termos Linguísticos a prosódia é definida como o “estudo da natureza e funcionamento das variações de tom, intensidade e duração na cadeia falada”.

Ou de acordo com Isabel Pereira, 1992:

“Prosódia é um termo que vem do grego προσῳδία (formado por pros, junto, e odé, canto). Tal etimologia atribui à prosódia a significação de melodia que acompanha o discurso e, na língua grega, mais precisamente, o acento melódico que a caracteriza.” (Estudando a melodia da fala: traços prosódicos e constituintes prosódicos)

Ou “Prosódia é um termo que vem do grego (formado por pros, junto, e odé, canto). Tal etimologia atribui à prosódia a significação de melodia que acompanha o discurso e, na língua grega, mais precisamente, o acento melódico que a caracteriza”.

Ainda que as palavras não sejam tão espaçadas nós sabemos onde uma palavra começa e termina se conhecemos essa língua e temos vocabulário suficiente, mas basta ouvirmos um idioma desconhecido para percebermos que não é tão fácil assim definir o som que inicia e o que finaliza uma palavra, onde termina uma palavra e começa a próxima na frase.

Isso tudo sem mencionar a ambiguidade e o contexto, que nós como humanos temos que saber para entender o sentido de uma frase.

Na imagem temos Steven Pinker, um homem branco de olhos claros e cabelo grisalho e texto sobre a necessidade da linguística
Consta na imagem o psicólogo canadense Steven Pinker, um homem branco de olhos claros e cabelo cacheado e grisalho. Acompanha a imagem o texto: “A linguistica é necessária para: programar computadores, tratar disturbios de linguagem, ensinar linguas estrangeiras, endender leis, política e literatura”

E todas essas complexidades entram na minha conversa com minha assistente, que nem sempre me entende e às vezes me responde coisas que nem sei como ela entendeu. Eu fico então pensando na evolução dessa tecnologia de voz para texto, que faz a inteligência artificial entender meus enunciados, destacar entidades e de alguma forma compreender a minha intenção, para que ela possa me responder. E fico pensando em todas as complexidades no campo linguístico e como e quando será que evoluiremos a compreensão das máquinas nesse aspecto tão complexo que é a linguagem e todos os pormenores da linguística que mencionei.

Enquanto isso estou doando meus trechos de áudio para a ciência visando melhorar a tecnologia de fala para texto, ou digitação por voz, do teclado Gboard do Google:

Imagens de um modal acima do aplicativo Whatsapp pedindo autorização para que eu doe trechos de áudio para melhorias na tecnologia de fala

E vocês? Como estão lidando com as máquinas, a Inteligência Aritificial e as interfaces invisíveis? Estão fazendo amizade com as assistentes?

Quero agradecer ao Caio Calado pelo convite para escrever esse artigo, e à Janaína Pereira por ser uma inspiração.

Recomendo também o texto do Sueliton Ribeiro com dicas de leituras para escrever para fala

E o texto da Yasmin Costa sobre por que somos conversacionais?

Além disso tem o vídeo do Big Think com Steven Pinker, que ilustrou parte desse artigo: Linguistics as a Window to Understanding the Brain

E no quesito linguística/variação linguística/sociolinguística recomendo também o canal do professor Jan Blommaert

Imagem com “uma cafeteira italiana em cima do fogão com vapor ao redor” e o título deste artigo em destaque: “Computação ubíqua e assistentes de voz”.

Este artigo faz parte da série 21 em 2021 do Bots Brasil ✨

Compartilhe com pessoas da sua rede, deixe um like, um comentário e para conferir os outros 20 textos da série da comunidade, acesse: https://bit.ly/2021botsbrasil

--

--

Lia Rodrigues
Bots Brasil

Product Designer | Freelance Translator | Chatbot and Voice enthusiast | Talk nerdy to me