Inteligências artificiais, preconceitos reais

Tecs: grupo de comput{ação social} da USP
Tecs USP
Published in
14 min readMay 6, 2018

Quando Alan Turing (1912–1954), matemático inglês tido como pai da computação, disse acreditar que chegaríamos ao novo milênio falando sobre ‘máquinas pensantes’ com naturalidade, ele não poderia estar mais certo. O que não significa, entretanto, que seja fácil falar sobre Inteligência Artificial, já que sequer é fácil definir o que é inteligência, artificial ou não.

Genericamente, o dicionário nos diz que Inteligências Artificiais são sistemas computacionais capazes de executar tarefas que normalmente requerem inteligência humana. Se quisermos ser mais rigorosos, podemos dizer que se trata do “estudo e desenvolvimento de entidades autônomas capazes de perceber o ambiente e agir de maneira satisfatória” (S. Russel, P. Norvig), e as perguntas que seguem são: o que é autonomia? O que define capacidade de percepção? Como se mensura se algo é satisfatório ou não?

Indefinições à parte, uma coisa é certa: o que hoje entendemos como inteligências artificiais estão longe de serem versões não-naturais da consciência humana, como as manchetes e filmes há algum tempo fazem parecer.

‘É tudo algoritmo e big data’

Na verdade, as tecnologias que compõem o espectro de tipos de inteligências artificias (pois, sim, há mais de uma, pra não dizer muitas, maneiras de desenvolver tecnologias do tipo) no fundo não passam de funções matemáticas aprimoradas com muita estatística — uma simplificação grosseira, mas ainda assim pertinente.

Portanto, quando falamos sobre discriminações advindas de IAs, não estamos de maneira alguma falando de um robô autoconsciente e deliberadamente preconceituoso. No fundo, algoritmos de machine learning (um dos tipos de elaboração de uma inteligência artificial, talvez o mais difundido hoje em dia e sobre a qual falamos aqui) são simplesmente ferramentas que “aprendem” (isto é, aumentam sua precisão) com um grande volume de dados e fornecem algum tipo de resposta otimizada — como um ranking, uma avaliação ou diagnóstico — de acordo com o procedimento pré-programado.

A importância dos dados

Uma vez que a grande maioria das tecnologias de aprendizado de máquina são feitas em cima da análise exploratória de dados, os dados sobre os quais essa análise é feita em muito determinam o comportamento dessas ferramentas. Seja lá o que a máquina em questão aprende (se é que aprende), o faz condicionada pelas informações que o conjunto de dados a ela ofertado pode dizer ou não.

Não só, há uma diferença fundamental no tratamento de dados sobre ciências naturais e os sobre ciências humano-sociais. Se os primeiros agem sobre ciências (que se pretendem) objetivas e cujo objeto de análise está ligado a procura por explicações mais universais de fenômenos que independem da condição humana, os segundos por sua vez agem sobre ciência que, objetivas à sua maneira, atuam muito mais no estabelecimento de padrões de recorrência que possam explicar e elucidar a atividade humana com toda intersubjetividade inerente a ela. Em ambos os casos, trata-se de tentar quantificar fenômenos extremamente caóticos.

Logo, como bem disse Fred Benenson, cientista de dados e autor do termo Mathwashing (sobre o qual falamos mais abaixo), algoritmos e produtos guiados por dados sempre refletirão as escolhas de design tomadas pelos humanos que os construíram, e é irresponsável assumir o contrário.

Desafios éticos

Um relatório desenvolvido por um grupo de trabalho do governo dos Estados Unidos durante a gestão Obama divide os desafios éticos ao promover justiça e superar os efeitos discriminatórios dos algoritmos movidos a dados em dois grandes grupos: aqueles relacionados aos dados utilizados como inputs para os algoritmos, e os relacionados ao funcionamento interno e projeto do algoritmo.

Conforme explicado anteriormente, a grande maioria das inteligências artificiais é baseada em processos estatísticos sofisticados, que melhoram seu desempenho a partir da observação de dados. É evidente, então, que os dados fornecidos como entrada para esses algoritmos têm impacto direto nos resultados. Dentre os diferentes problemas possíveis que podem culminar em resultados discriminatórios, temos:

  • Dados mal selecionados, quando o grupo responsável pelo sistema algorítmico decide que certos dados são importantes na tomada de decisão, mas não outros, ou então quando os dados selecionados têm granularidade demais ou de menos. Um exemplo básico seria um algoritmo que calcula a rota mais rápida, mas que recebeu apenas informações sobre vias, e não sobre horários de transporte público ou rotas de bicicleta. Nesse caso, o uso de carros seria favorecido e o de transporte público desencorajado, criando artificialmente áreas onde a demanda por transporte supera a oferta.
  • Dados incompletos, incorretos ou desatualizados, quando há uma falta de rigor técnico ou de abrangência na coleta dos dados, ou quando os dados são imprecisos ou possuem lacunas. Ainda no exemplo da rota mais rápida, isso poderia ocorrer caso os dados sobre os horários do transporte público não fossem atualizados regularmente, o que poderia desencorajar seu uso e apresentar uma desvantagem para aqueles que não têm outra opção viável de transporte.
  • Viés de seleção, quando os dados coletados não são representativos da população a ser modelada, resultando em conclusões que podem favorecer certos grupos populacionais. Ainda nos atendo ao mesmo exemplo, isso poderia ocorrer caso os dados sobre a velocidade das vias fossem coletados apenas através de smartphones com planos de dados. Dessa forma, os resultados do sistema seriam mais precisos para populações mais ricas, que têm maior concentração de smartphones e a possibilidade de pagar pelos valores abusivos de tais planos, e menos preciso em áreas economicamente desfavorecidas, onde o número desses aparelhos com acesso constante à internet é menor.
  • Perpetuação e promoção não intencionais de viéses históricos, quando os dados de entrada refletem resultados passados, que podem ser discriminatórios, na saída do algoritmo. Por exemplo, em uma empresa de tecnologia, que tem homens brancos como maioria de seus funcionários, um sistema algorítmico desenhado para priorizar primariamente o culture fit, sem considerar outros objetivos de contratação como diversidade e experiência, poderá recomendar desproporcionalmente a contratação de mais homens brancos porque seu perfil se enquadra mais com a cultura já existente na empresa.
Neste exemplo, simplificado para fins didáticos, a escolha infeliz de dados de entrada, que incluem apenas imagens de cachorros pretos e de gatos claros, faz com que um cachorro branco seja reconhecido como gato, com confiança de 96%.

Já no segundo grande grupo de problemas, relacionados ao funcionamento interno e ao projeto do algoritmo, temos:

  • Sistemas de pareamento mal projetados. Tais sistemas têm o objetivo de ajudar o usuário a encontrar informações, recursos ou serviços, como o algoritmo que determina que anúncios serão exibidos para cada usuário. Seus resultados podem ser discriminatórios se não levarem em conta vieses históricos ou pontos cegos dos dados utilizados para treinamento, como neste caso, em que anúncios de cargos executivos são exibidos majoritariamente para homens.
  • Na mesma linha, há os algoritmos de recomendação e personalização que diminuem o fluxo de informações ao invés de expandi-lo. Nesse caso, o uso de informações detalhadas sobre o usuário é usado para inferir suas preferências, interesses e crenças para recomendar músicas, vídeos, produtos, descontos, entre outros. Tais algoritmos podem inadvertidamente restringir o fluxo de informações que um usuário recebe, causando uma desigualdade de oportunidades e inclusão.
  • Algoritmos enviesados por conta do conjunto de dados de treinamento, que possuía lacunas ou representava determinadas populações desproporcionalmente. É o caso dos algoritmos de reconhecimento facial, treinados majoritariamente em rostos brancos e que possuem acurácia muito menor em rostos negros. O acesso à tecnologia e a participação no ecossistema digital varia consideravelmente por conta de barreiras econômicas, linguísticas, estruturais ou socioeconômicas, e quando desconsiderada, essa falha sistêmica pode reforçar padrões de discriminação existentes ao super-representar algumas populações e sub-representar outras.
  • Por fim, há os sistemas de tomada de decisão que assumem que correlação implica causação. Nesse caso, a co-ocorrência frequente de dois fatores (como uma determinada etnia e determinada classe econômica) é usada como indicador de uma relação causal, levando a resultados discriminatórios.

Sem mecanismos de transparência, responsabilidade e regulamentação adequada, tais problemas, difíceis de detectar pelo usuário afetado, podem proliferar-se amplamente. Além de implementar o princípio de oportunidades iguais desde a concepção [equal opportunity by design], é importante desenvolver o campo de mitigação de vieses [bias mitigation] para evitar que os vieses inconscientes dos projetistas, produtos inevitáveis de sua própria cultura e experiência de vida, sejam incorporados aos algoritmos. Ademais, é importante estimular uma maior diversidade no campo de tecnologia, de modo a evitar projetos desenvolvidos por equipes uniformes, com uma mesma visão de mundo e que sofre dos mesmos vieses inconscientes.

Os problemas surgem…

Em 2017, a Universidade da Virgínia nos Estados Unidos realizou uma pesquisa na qual a hipótese a ser testada era justamente se, em se tratando de tecnologias inteligentes, essas podem acabar assimilando alguns preconceitos do mundo de alguma maneira quantificável.

Para tanto, os pesquisadores usaram um imenso banco de dados composto por mais de 100 mil imagens da web, previamente rotulados por humanos com a descrição do seu conteúdo. A ideia era testar viés de gênero tanto pela atividade em um imagem específica, descrita por um verbo (“cozinhar”, “dirigir”, “atirar” etc), quanto pelos objetos contidos nelas (“faca”, “carro”, “arma” etc). A conclusão: notou-se que além de assimilar algumas discriminações, as máquinas também as reforçam.

Assimilação e reforço de viés de gênero em atividades ligadas aos cuidados com a casa

Numa primeira rodada de treinamento, constatou-se, por exemplo, que fotos sobre a atividade de cozinhar eram associadas 33% mais vezes a mulheres do que a homens, chegando a 68% depois de mais tempo de treinamento.

Em geral, verificou-se que mais de 45% das atividades (descritas pelos verbos) e 37% dos objetos apresentaram algum tipo de viés de gênero. Assim, enquanto imagens de práticas de tiro ou direção foram mais comumente associadas a homens, atividades como compras e cuidado com a casa foram mais associadas a mulheres — mesmo quando não eram estes os casos.

O estudo termina discutindo métodos estatísticos que podem ser aplicados para que, conscientes dessas distorções, os desenvolvedores possam calibrar melhor o modo como são feitas essas correlações, evitando discriminações estereotipadas.

Mas se por um lado a pesquisa feita na Universidade da Virgínia calca em base e metodologia científica o viés a que certas tecnologias de inteligências artificiais estão sujeitas, por outro trata-se ainda assim de um ambiente controlado, cuja intenção é justamente verificar o problema. No entanto, tais problemas não se limitam ao ambiente especulativo, sendo muitos os casos de atuação de softwares que chegam ao mercado com alguma problemática de discriminação.

Um caso famoso é o do Google Photos, que repercutiu em 2015 depois que um usuário negro teve suas fotos junto a amigos classificadas pelo software como sendo de gorilas. Basicamente, o treinamento do mecanismo de inteligência envolvido na classificador passou por problemas de pontos cegos nos dados de treinamento, conforme definimos anteriormente, no qual o baixo espectro de imagens de pessoas negras, associado às circunstâncias estatísticas com fotos de alguns símios, fez da ferramenta incapaz de distinguir a pele de uma pessoa negra da de um macaco.

Jack expôs o problema no classificador de imagens por meio de sua conta no Twitter

À época, o caso ganhou bastante repercussão, obrigando o Google a se desculpar publicamente, prometendo que resolveria o problema. E resolveu. Dois anos depois, nenhuma pessoa negra tinha mais suas fotos associadas a gorilas. Foi quando, então, no início de 2018 a revista Wired decidiu investigar de que maneira este problema havia sido contornado, e detectou que se por um lado as associações discriminatórias já não eram mais feitas, por outro o software já não era mais capaz de reconhecer gorilas e espécies similares, revelando que a “solução” encontrada pelo Google consistiu basicamente na eliminação de fotos de símios do banco de dados usado para treinamento.

Com a falta de uma metodologia abrangente que pudesse resolver os efeitos indesejados, tal resolução levantou debates sobre a validade deste tipo de procedimento no contexto geral dos trabalhos com treinamento de inteligências artificiais.

Contudo, a questão é mais profunda que isso. Acreditar na existência de métodos perfeitos e isentos de problemas, em última instância, advém de uma concepção errada onde a objetividade matemática seria supostamente capaz de abarcar todas as realidades sem incorrer em falhas, o que não é verdade.

Mathwashing

Fred Benenson, cientista de dados americano, cunhou o termo mathwashing, analogamente a whitewashing, usado para descrever a prática da indústria hollywoodiana de usar atores brancos para personagens historicamente não brancos, e greenwashing, quando empresas utilizam estratégias de marketing que as associam a práticas ambientalistas e se beneficiam das conotações de “verde”, enquanto vendem produtos que na verdade não são compatíveis com o ambientalismo consciente. Mathwashing pode ser pensado como o uso de termos matemáticos (algoritmo, modelo, etc.) para encobrir uma realidade mais subjetiva: há uma crença geral de que como a matemática está envolvida, algoritmos são automaticamente neutros. Esse equívoco permite que viés passem desapercebidos e que empresas e organizações não sejam responsabilizadas, escondendo-se atrás de algoritmos.

Há dois tipos de mathwashing: o acidental, quando boas intenções são combinadas com falta de conhecimento técnico e expectativas ingênuas, como no caso dos algoritmos de distribuição de anúncios que mostram cargos executivos majoritariamente para homens, mencionado acima; e o proposital, quando se abusa da crença das pessoas quanto à neutralidade de um algoritmo para disfarçar decisões não neutras, como no caso da supressão de notícias conservadoras no feed do Facebook.

A falácia da matemática e sua objetividade como definidoras de verdades absolutas acabam, portanto, sustentando o desenvolvimento de pesquisas e produtos na área de inteligência artificial que ferem princípios básicos como liberdade de expressão e privacidade pessoal.

Em 2017, por exemplo, um grupo de pesquisadores da Universidade de Stanford publicou um artigo no qual defendem terem desenvolvido um algoritmo capaz de distinguir se um homem é gay em até 91% dos casos e se uma mulher é lésbica em 83%. Ainda segundo a pesquisa, essa seria uma porcentagem superior a obtida por um humano, que supostamente acerta entre 50% e 60% das vezes.

Polêmico estudo da Universidade de Stanford que defende dimorfismo facial como base pra criação de uma inteligência artificial supostamente capaz de determina a orientação sexual de uma pessoa. Um claro exemplo de mathwashing.

Como aponta esta matéria do jornal El País sobre o estudo, pra além das questões de intimidade e privacidade pessoal, existem muitos problemas de base metodológica e científica, a começar pelo fato de que o banco de imagens usado para treinamento era inteiramente composto por pessoas brancas e foi extraído de um site de relacionamentos, espaço onde as pessoas envolvidas tendem a serem assumidas com relação a sua orientação sexual, marcando o viés dos dados. Além disso, a teoria biológica sobre origem da homossexualidade na qual os autores dizem se sustentar para validar a predição de seu algoritmo, conhecida como Teoria Hormonal Pré-Natal, hoje é amplamente tida como anacrônica pela comunidade científica.

Após a repercussão negativa, os autores do estudo se manifestaram, alegando que um de seus objetivos era justamente “alertar contra os perigos da inteligência artificial e sua invasão na vida íntima das pessoas”.

A discussão sobre mathwashing é relevante não apenas porque decisões algorítmicas têm impactos concretos em nossas vidas a partir de resultados obtidos da análise de nossas crenças e comportamentos, mas também porque os algoritmos de aprendizado de máquina moldam nosso comportamento.

O ciclo vicioso

Um estudo de Epstein e Robertson demonstrou o chamado SEME, Search Engine Manipulation Effect (em português, efeito de manipulação dos buscadores). Os cinco experimentos foram conduzidos em dois países, com mais de 4.500 participantes. As pessoas, divididas em dois grupos, recebiam as descrições de dois candidatos e respondiam perguntas sobre quanto gostavam de cada um e em quem votariam. Em seguida, utilizavam um simulador de buscadores para pesquisar sobre os candidatos durante 15 minutos. No entanto, o buscador fornecia as páginas em ordens que favoreciam candidatos opostos para cada grupo: os resultados eram os mesmos, mas em ordens diferentes. Após a sessão de busca, respondiam novamente as perguntas. Em todos os cenários, suas crenças eram fortemente afetadas pelo conteúdo das páginas no topo das buscas, e a proporção de pessoas que apoiavam determinado candidato era alterada entre 37 e 63 por cento depois de uma única sessão.

Uma busca pelos termos “mulher bonita” retorna apenas imagens de mulheres brancas, em torno de 20 e 30 anos, de cabelos lisos e olhos claros.

Em outro estudo, Epstein demonstrou o efeito de sugestão das buscas, SSE, (do inglês Search Suggestion Effect). Quatro conjuntos de sugestões de busca (no estilo autocomplete) eram mostrados aos participantes. Dois mostravam sugestões relacionadas ao candidato republicano, e dois ao democrata. Para cada busca, participantes podiam selecionar uma das quatro sugestões exibidas ou digitar sua própria busca por completo. Cada um dos pares (um para cada candidato) diferia exceto pelo fato de que em uma das buscas, uma das sugestões era negativa (e.g.: “Tim Kaine escândalo”); em todos as outras sugestões os termos eram positivos ou neutros. Os itens negativos atraiam cerca de 40% dos cliques. As pessoas clicavam na sugestão negativa cinco vezes mais do que no item neutro correspondente na busca de controle, e as pessoas indecisas quanto à escolha de candidato clicavam no item negativo dez vezes mais do que nos itens neutros. Consistentemente com o viés de confirmação, pessoas afiliadas com determinado partido selecionavam a sugestão negativa para o candidato de seu partido menos frequentemente do que para o outro. Ademais, quanto mais alto a sugestão negativa aparecia na busca, mais cliques ela atraía.

Em turco, uma língua que não tem marcação morfológica de gênero, a tradução automática reflete vieses inconscientes: médicxs são homens, mas enfermeirxs, mulheres.

E agora?

Depois de todo esse texto, parece que estamos nos dirigindo para um caminho sem volta. Nem tudo são flores, é claro, mas há medidas que podem ser tomadas para minimizar os impactos negativos desses algoritmos. No relatório já mencionado do governo Obama, foram delineados os seguintes pontos de ação:

  • Apoiar pesquisas interdisciplinares que busquem eliminar a discriminação algorítmica, construindo sistemas com mecanismos de justiça e responsabilidade [accountability], e desenvolvendo regulamentações éticas para o uso de dados.
  • Exigir que os participantes do mercado desenvolvam sistemas que sigam tais regulamentações e que possuam tais mecanismos, informando os sujeitos sobre como seus dados estão sendo utilizados para guiar decisões e fornecendo a habilidade dos sujeitos de corrigir dados incorretos sobre si e de entrar com recursos contra decisões algorítmicas. Organizações, instituições e empresas devem ser responsabilizadas pelas decisões feitas com auxílio de sistemas de decisão automatizada.
  • Promover pesquisas na academia e na indústria sobre auditoria e testes externos de algoritmos para garantir que as pessoas estejam sendo tratadas de maneira justa. Tais esforços devem incluir uma análise que identifique os elementos de transparência e responsabilidade para melhor informar as considerações éticas e regulamentares das tecnologias de dados.
  • Aumentar a participação do público na ciência da computação e de dados, incluindo oportunidades para aumentar a fluência digital do cidadão médio. Instituições educacionais e empregadores devem buscar meios de oferecer oportunidades de aumentar o entendimento das pessoas sobre como essas questões têm impacto nas suas vidas para que possam influenciar o destino futuro da área.
  • Considerar o papel do governo e do setor privado em determinar as regras de como os dados podem ser utilizados. Conforme cresce o uso de dados, o setor privado, os cidadãos, as instituições e o setor público devem estabelecer expectativas, normas e padrões que servirão como guias para o futuro.

A área de pesquisa sobre responsabilidade e ética algorítmica é extremamente recente, e ainda há diversas questões a serem respondidas. Seria possível balancear uso ético de dados dentro de uma lógica de maximização dos lucros? Que tipos de dados podem ou não serem utilizados pelas empresas? Será possível algum dia um usuário ser capaz de verificar quando houve de fato discriminação algorítmica?

Atualmente, existe uma grande discussão sobre a necessidade de se estabelecer um código de conduta ética para profissionais de computação, tal como existe para médicos e engenheiros, por exemplo. Essa medida passa necessariamente pela ampliação de espaços de debate sobre o assunto nas universidades e, quem sabe, inclusão de disciplinas com o tema na grade dos cursos de Ciência da Computação e similares — uma bandeira que nós do Tecs continuaremos levantando.

--

--