Ética e transparência: Duas antagonistas na jornada rumo à IA.

Sueliton Ribeiro de Sousa
VUI.BR
Published in
8 min readOct 23, 2019

Enquanto a Neuralink (empresa do Elon Musk), não finalizar e permitir que implantes para o cérebro humano possam competir frente à frente com inteligências artificiais e de forma mais rápida, seguimos a passos lentos para colocar máquinas para compreender o básico da comunicação humana.

A ética sempre foi um problema em pauta no mercado da tecnologia e com razão, já que não é raro assistirmos à capítulos onde empresas, fazendo mau uso dos dados, divulgaram para terceiros informações sigilosas de seus usuários.

Em processo de criação de ChatBot ou interfaces conversacionais, em geral, fala-se muito em Processamento de Linguagem Natural (NLP) como uma das etapas mais interessantes e desafiadoras de toda a criação. Mas o que poucos dizem é que existe uma parte nessa dinâmica — também relacionada à “inteligência” do robô -, que consiste em compreender os inputs sonoros em Linguagem Natural falados pelos usuários. A responsabilidade dessa fatia considerável vem do STT (Speech to Text).

Fui em uma palestra de apresentação da Alexa Skills e, no final, fiz uma pergunta que me pareceu ter sido ignorada por completo. Quis entender sobre a responsabilidade da Alexa e sua ferramenta de STT com a similar pergunta:

Logo no início da apresentação, foi mencionado o índice de 1/3 da população americana que possui algum dispositivo por voz em suas casas (independente da marca) e também que a Alexa é líder de mercado entre estes dispositivos. Sobre o produto que está apresentando, que consiste em uma plataforma de criação de VoiceBots e campos para processamento e treinamento de linguagem natural, onde a única responsabilidade da Alexa é capturar os inputs sonoros dos usuários em linguagem natural, encaminhar para a nuvem, onde acontecerá o processo de transcrição pelo STT da própria Alexa, e só em seguida devolver para o campo de NLP que estará preparado ou não para reconhecer alguma intenção ou entidade, remanesce, pra mim uma questão: Qual é o índice de acurácia comparado à grandes empresas do mercado que oferecem esse mesmo serviço, como Nuance, CpQd ou Google?

Tive como resposta questões relacionadas a TTS (sim, o output do robô), e quando tentei explicar ao palestrante que a questão não estava relacionada às respostas do robô (e suas falhas entonacionais), mas sim à voz do usuário e sua transcrição (responsabilidade da Alexa), não tive uma resposta satisfatória. Nada próximo do que perguntei foi respondido. Me lembrei das tentativas de discutir esse tema no trabalho. Ninguém sabe (ou pode) explicar com clareza! Sabe-se que existe um abismo entre o que é falado e o que é entendido.

Enquanto na União Europeia se tem o GDPR, aqui no Brasil, com o surgimento da Lei Geral de Proteção de Dados Pessoais (LGPD ou LGPDP), que é a legislação brasileira responsável por regular as atividades de tratamento de dados pessoais, as empresas estão começando a repensar sobre como irão lidar com os seus próprios dados e os de seus clientes. Em outras palavras, estão começando a pensar na Gestão da Informação de uma forma mais ética, cuidando dos processos para que estejam documentados e dispostos de forma estratégica.

Já no processo de criação de uma interface conversacional por reconhecimento de fala, o número de processos e áreas, serviços e ferramentas utilizadas é alto. E se a gente ignorar a sua resolução e interação com o usuário final, olhando apenas de forma fragmentada para os processos, esse robô poderá, a partir do ponto de vista de cada área, se tornar o produto ideal. A imersão é executada com critério, o desenho é pensado da maneira onde os caminhos felizes são contemplados e, claro, a parte de processamento de linguagem natural é contemplada com os inúmeros treinamentos para só então chegar a uma acurácia digna de comemoração. Mas na vida real, se cada uma das partes envolvidas não garante 100% de acurácia (e hoje, com a tecnologia que temos, isso não acontece mesmo), a soma de todas as falhas resultará em uma interface mediana.

Cada área vai focar na sua entrega e contribuir para sua melhoria. Mas, e quando existe uma área que, quando não se garante, compromete as outras? E, além disso, se omite por não estar presente no time de desenvolvimento, o que devemos fazer com a expectativa do usuário final?

Não muito distante, fui em um meetup sobre criação de bots, e após a apresentação de uma palestrante sobre determinado ChatBot que funcionava a partir de texto, um dos presentes na plateia se apresentou e disse ser do CPqD. Ele perguntou se não estavam interessados em utilizar reconhecimento de fala nas aplicações e fez a propaganda do seu produto.

Quando ele terminou, perguntei sobre a acurácia do STT, e ele disse que estava em torno de 96% (o que é muito. E como já trabalhei com reconhecedores, inclusive do próprio CPqD, que não chegava nesse nível nem com reza braba, fiquei pensativo, mas achei melhor não estender o assunto). Ele seguiu dizendo que, se somado a acurácia do STT, e o entendimento da NLP, a inteligência do robô poderia chegar em até 100%.

Eu fiquei chocado com a lógica que ele citou, porque sei que, na verdade, acontece exatamente o contrário do que ele disse.

No intervalo, enquanto socializávamos no café, ele me esclareceu melhor a sua fala, e após entender que eu conhecia o produto dele, confessou que os 96% de acurácia se referia a questões diversas, textuais, etc… Enfim, não se tratava da resposta a minha pergunta.

É complicado administrar todas as esferas de criação de um produto quando, de forma coletiva, não se pensa na problemática do ponto de vista focado no usuário. Além disso, é através da assertividade de todas as partes envolvidas que a interação irá fluir. Estado por estado, numa dança insegura, porém ok.

Dentro e fora das empresas, o STT parece ser um tema que ninguém se atreve a falar, nem se responsabilizar pelo seu desfecho na interação final.

Enquanto isso — e a partir do ponto de vista do usuário -, ele não sabe que existem departamentalizações ou empresas terceiras envolvidas na concretização de uma interação entre humano máquina.

Para a pessoa que navega por uma interface, toda a dinâmica se torna invisível. Essa pessoa não precisa saber que, para uma conversa acontecer, é preciso utilizar uma rede de telefonia que vem de uma empresa A, que o discador que fez a chamada é da empresa B, o Processamento de Linguagem Natural é da empresa C, o STT da D, o protocolo utilizado para conectar a interoperabilidade entre os serviços consultados é da empresa X… e assim por diante. É muito complexa toda essa cadeia e, no fim, o que o usuário simplesmente quer é que o robô entenda quem ele é, dentre outras respostas numa interação.

Quando nenhuma dessas peças do processo vai bem, não é problema do usuário saber onde aconteceu a falha para decidir se quer ou não ser condescendente. No mínimo, esse usuário irá pensar o que muita gente pensa: “esses robôs não entendem nada”.

Geralmente o serviço contratado de STT não disponibiliza uma adequação às especificidades do produto a ser utilizado. Ou seja, o transcritor é generalista e vai englobar todo o dicionário e palavras existentes da língua utilizada. No nosso caso, o português e suas mais de 435.000 palavras. No caso do CPqD, estão com um produto que funciona de forma similar à gramática da Nuance, buscando reconhecer determinadas palavras a partir do contexto; validando-as por score.

Adicionar descrição

Maarten Lens-Fitzgerald (defensor da tecnologia da voz).

Um fator delicado e que vale a pena ser considerado é que, se tratando de interfaces conversacionais que utilizam de redes de telefonia para concluírem sua interação, a perda de dados sonoros existe e isso dificulta a transcrição pelas inteligências de STT.

Ao escutar gravações de interações entre robôs e usuários, descobri recentemente que, em muitos diálogos, as pessoas respondiam otimistas às perguntas feitas pelo robô. Mas o STT, responsável por transcrever as respostas e encaminhar para o campo de NLP, não retornava nenhuma palavra, obrigando o robô a devolver uma ação e tratativa de silêncio. Ou seja, essa limitação faz com que a pessoa que acabou de responder, escute do robô que ela precisa falar algo para que haja interação entre eles; um verdadeiro disparate.

Sabemos que a Inteligência Artificial é melhorada ao longo do processo de treinamento e experiências. Ou seja, quanto mais se executa determinada tarefa, mais eficaz se torna o seu reconhecimento. Em relação a Alexa Skills, fiquei me perguntando se essa história de disponibilizarem no site “de graça” para que as pessoas baixem a funcionalidade e criem suas interfaces por reconhecimento de fala com a inteligência da Alexa não seria uma estratégia competitiva e sem muita transparência. Se sim, isso foi ético?

A Google sobreviveu por anos pagando Raters, para classificarem e darem notas aos resultados de busca (textual e de voz), com o intuito de treinar o seu algoritmo para que hoje pudéssemos analisar e dizer que sim, é muito bom.

Ora, se antes tinham-se trabalhadores espalhados mundo afora, escutando áudios de algumas empresas, tem-se agora, com as Skills, a possibilidade de treinar vários segmentos específicos com o intuito de alimentar uma base generalista, mas sem assumir tal interesse. =\

Precisamos lembrar que a Siri — pioneira entre esses produtos -, em seu discurso (na fala de algum porta voz), se abstinha em escutar as gravações dos usuários para treinar seu produto, ficando então para trás na inteligência e reconhecimento, embora há pouco mais de um mês tenha ficado claro: o comportamento da Apple não estava alinhado com o seu discurso sobre à segurança dos dados.

Não é curioso que a Alexa disponibilize, de graça, plataformas para empresas criarem diversas skills sobre vários temas que, indubitavelmente alimentará sua própria base de dados? E o melhor, sem quebrar o direito e respeito a privacidade de seus usuários (da Echo, por exemplo), não infringindo leis de segurança da informação e, de quebra, saindo na frente das outras.

A maneira de tratar a informação mudou um pouco desde o caso de mau uso de dados massivos pela Cambridge Analytica. Se antes faltava transparência e controle, hoje por exemplo, existem iniciativas incríveis sobre ensinar as máquinas a falarem como nós falamos.

A Monzilla criou uma base de dados de voz acessível a todos e em diversos idiomas. Essa tecnologia, chamada Deep Speech, será utilizada no algoritmo para Speech to Text. Recentemente, iniciaram a gravação para português. Colabore com essa causa!

Empresas como Amazon estão explorando melhores maneiras de projetar para Inteligência Artificial. Porém, disponibilizando serviços e coletando informações de diversos segmentos e referências de dados, que servirão como grandiosa base de dados para determinar a melhor experiência pessoal por indivíduo.

No entanto, da mesma forma que houve falta de ética no vazamento de alguns dados por grandes empresas, será que não está havendo falta de clareza nesse treinamento “gratuito” das skills da Alexa?

O armazenamento de dados é um dos desafios éticos que nós, como profissionais e criadores, precisamos resolver, ou no mínimo, problematizar.

Vamos tornar essa jornada transparente para todos?

--

--