Programa de 5 passos para mitigar efeitos de vieses em produtos digitais desenvolvidos com reconhecimento facial

Eliéser de Freitas Ribeiro
11 min readNov 28, 2022

--

Roteiro para organização de uma nova área de pesquisa e desenvolvimento dentro de empresas de produtos digitais.

Por Eliéser Ribeiro | Analista de Dados e Mestre em Sociologia

Imagine uma empresa que tem revolucionado o mercado criando novos produtos digitais disruptivos, desenvolvidos a partir de inteligência artificial baseada em reconhecimento facial. Os novos produtos, desenvolvidos pela companhia, dariam mais poder e autonomia aos seres humanos, tornando relações sociais e comerciais mais eficientes e mais confiáveis. De um ponto de vista antropológico, isso teria um significado especial, pois as pessoas não precisariam mais serem substituídas por cartões, senhas, assinaturas e documentos nas suas relações e trocas. Apenas a presença física, com o rosto humano como assinatura, já seria suficiente.

O reconhecimento facial é um sistema de aprendizado de máquina que verifica as medidas da face, considerando pontos que se conectam — por exemplo, a distância entre os olhos, os pontos do nariz, o tamanho da boca entre outros — e o conjunto dessas medidas produz uma forma de “assinatura facial”. Tem-se em média 80 pontos de referência na face que geraria uma assinatura bastante complexa e segura. Os produtos digitais que usam o reconhecimento facial armazenam essas assinaturas e compõem um grande banco de dados para serem utilizados no futuro. Esta tecnologia pode ser integrada a outros dispositivos que, por sua vez, permitirão que qualquer pessoa faça autenticações (permitindo que prove com facilidade que a pessoa é quem afirma ser) ou que faça identificação (permitindo que aponte quem é determinada pessoa).

Pense que compras, vendas, contratações, aluguéis e empréstimos seriam realizadas em menos tempo, com menos burocracia e com mais segurança utilizando a tecnologia. Parece o cenário perfeito. Contudo, essa inovação não seria “neutra” e não funcionaria de maneira igual para todos os indivíduos. Ela tenderia a reconhecer, em uma pequena escala, menos mulheres, negros e idosos em comparação aos demais indivíduos da sociedade, criando produtos com possíveis vieses de reconhecimento facial e colocando em risco grandes inovações e investimentos. O risco seria tal que parte da comunidade científica, inclusive, propõe o banimento da nova tecnologia até que os problemas de vieses sejam resolvidos.

Suponha que a empresa, então, procure solucionar esse problema em seus produtos utilizando parte do seu conhecimento de engenharia, desenvolvimento de produtos, equipe de marketing e comunicação para criar novas estratégias e, assim, mitigar os vieses e continuar oferecendo soluções para o mercado. Para isso, a empresa percebe que precisa criar um programa que não seja apenas temporário, mas permanente, para monitorar os vieses, entender suas causas, trabalhar em suas etapas e construir um plano poderoso de pesquisa e de comunicação para que todos sejam conscientes dos problemas e possam, juntos, reparar as imprecisões. É decidido criar um novo espaço dentro da organização, com o nome provisório de área de mitigação de vieses de produtos digitais para gerenciar esse novo programa.

A partir de agora, será desenvolvido um roteiro estratégico com cinco passos do que fazer para a organização desta nova área e a mitigação dessa dor.

Passo 1 — Documente e monitore os erros do modelo

Para dar o primeiro passo vale a pena lembrar Peter Druker: “o que não pode ser medido, não pode ser melhorado”. Mas, para cuidar do problema dos vieses o que deve ser medido e melhorado? É decisivo concentrar atenção nos erros do modelo, documentando e monitorando onde eles acontecem e calibrando as etapas e grupos sociais onde eles incidem mais frequentemente. Geralmente, nos produtos digitais baseados em reconhecimento facial, analisa-se a qualidade do resultado pelo grau de precisão da leitura do modelo. Existem produtos que chegam até a 98% de acurácia. Não obstante, se esse produto atender 20 milhões de clientes, aproximadamente 400 mil pessoas terão tido problemas para fazer seu reconhecimento facial. O número é tão expressivo que isso pode até gerar uma grande crise na reputação da empresa, se nada for feito.

Estudos recentes sobre o tema mostram que três grupos merecem especial atenção na calibragem de modelos de reconhecimento facial: negros, mulheres e idosos. Os algoritmos existentes para reconhecimento facial apresentam maior probabilidade de erros no reconhecimento de membros destes grupos que em comparação com brancos, homens e jovens. Já existe um movimento internacional — que tem ganhado força no Brasil — rotulando o problema como “racismo algorítmico”. Análises dos procedimentos de reconhecimento facial têm buscado encontrar as causas do porquê das maiores taxas de falha de reconhecimento desses grupos. Todavia, no atual estágio de desenvolvimentos da tecnologia, é fundamental, antes de tudo, descrever qual é o tamanho dessa diferença, se ela tem normalidade estatística, se apresenta sazonalidades, ou se tem influências geográficas específicas. É preciso, então, caracterizar com profundidade o problema e ter ampla documentação de seus relatos para daí começar a construir relações de causa e efeito que expliquem o fenômeno.

Como deve ser realizada essa descrição? Quais são as etapas? Quais são os tipos de vieses? Como acontece os erros dos modelos? E como podemos resolvê-los? Estas serão algumas das perguntas respondidas no próximo passo.

Passo 2 — Examine quatro vieses nas etapas da construção do aprendizado de máquina

Neste segundo passo para poder examinar quatro possíveis vieses é preciso ter clareza sobre o que é o aprendizado de máquina e como ele pode esconder vieses.

O aprendizado de máquina é um sistema estruturado em algoritmos que operam um treinamento, fazendo uso de uma base de dados e, a partir dela, identificam padrões e referências de comportamento. As informações geradas posteriormente servirão como regra para que o sistema tome decisões mais adequadas ao contexto a que for exposto.

Na construção do modelo a base de dados é dividida entre dados de treino e de teste. Dessa forma, o aprendizado acontece através dos dados de treino, comparado com outro conjunto de dados e utilizado para avaliar o modelo, chamado de dados de teste. Os dados de testes são compostos por exemplos que o algoritmo de aprendizagem nunca viu antes. Um modelo que desempenha bem prevendo as novas entradas de dados que virão com o uso dos produtos é entendido como um modelo que generaliza bem, ou seja, que aplica bem o conhecimento aprendido.

Este sistema parece muito útil e tornaria a vida no geral mais eficiente. No entanto, o modelo de aprendizado de máquina que aprende a partir de dados passados pode fazer predições injustas, privilegiando um grupo em relação a outros ou mesmo errando. Quando ocorre essa distorção da realidade dos dados, chama-se isso de viés. Durante todo processo, de acordo com o trabalho de Ruback entre outras (2021) sabe-se pelo menos de quatro etapas que podem ser observadas os vieses.

Os vieses históricos, ocorrem quando a distorção do sistema pode ser configurada na geração dos dados que podem ser segregados já na sua origem. Isso acontece quando dados novos de entrada refletem resultados passados, que podem ser discriminatórios, reforçando julgamentos e preconceitos dos indivíduos e instituições. Como exemplo, vale citar que 90% dos presos no Brasil com uso de reconhecimento facial são negros. Para procurar mitigar este viés é preciso avaliar a construção dos dados de treinamento e de teste e se esses precisam de estratégias de balanceamentos estatísticos.

Os vieses de representação, são observados na seleção das amostras de treino e teste para a construção dos modelos. E acontece quando as amostras coletadas não são representativas dos grupos dentro da população a ser modelada de forma balanceada. Desse modo, os modelos tenderão a predizer os resultados inferiores para os grupos sub-representados. A título de exemplo, o trabalho de Buolamwini e Gebru (2018) analisando dados de Microsoft, da IBM e do Face++ mostrou que em geral homens e pessoas brancas foram mais bem classificadas pelos modelos do que os outros subgrupos. O que se pode realizar neste caso é tornar as amostras dos dados de aprendizagem do modelo o mais representativas possível da sociedade onde os produtos serão utilizados.

Os vieses de avaliação sucedem na ponderação da qualidade dos modelos comparando dados de teste e treino. Se o modelo aprende com os dados de treinamento e se os dados de testes que medem sua qualidade também têm a mesma origem enviesada do ponto de vista da representação populacional dos subgrupos, então a tendência que é que as avaliações de qualidade também tenham algum grau de viés. Exemplificando, o trabalho de Joy Buolamwini e Timnit Gebru que criaram o projeto Gender Shades, organizou um conjunto de dados melhor balanceado em relação a população geral e apresentou melhor avaliação que modelos da IBM que em 2020 descontinuou seu projeto. Neste ponto, pode-se realizar muitas melhorias, como por exemplo, ajustar os dados de teste conforme a realidade. Mas talvez o mais importante a ser feito seja aprimorar a construção dos algoritmos, entender com mais profundidade as bibliotecas e pacotes estatísticos usados, pois os vieses podem estar “escondidos” em técnicas matemáticas já muito consagradas e que não foram questionadas a partir dos usos atuais.

Os vieses de interpretação humana que ocorre na fase de pós-processamento dos dados e também na integração com os sistemas de produção e nas aplicações do mundo real. As distorções dos modelos são usadas para reforçar estereótipos e preconceitos já arraigados na sociedade. Pode-se citar o exemplo de quando resultados de modelos são utilizados como provas finais de punição de crimes sem considerar mais investigações. Portanto, uma proposta prática nesta direção é instrumentalizar melhor a interpretação humana para que ela possa encontrar e corrigir os possíveis erros.

Uma área de trabalho que está consciente e treinada a observar pelo menos estes quatro tipos de vieses tem muito mais chance de atenuar os efeitos destrutivos de erros de vieses de produto seja nos modelos de aprendizagem de máquina futuros, quanto na vida prática das pessoas que usarão os produtos. Para tanto, a área precisa de um plano de pesquisa que seja um norteador do programa e de uma estratégia de comunicação eficaz para alcançar êxito. Confira como realizar esse empreendimento nos dois passos seguintes.

Passo 3 — Elabore um plano robusto de pesquisa e desenvolvimento

A área que trabalhará com o tratamento de vieses precisa organizar suas ações e tarefas num grande plano robusto de pesquisa, que equilibre boas técnicas de pesquisa científica e políticas que norteiem a criação de novos produtos digitais.

É necessário que o plano de execução da pesquisa siga os pontos abaixo:

Esgote toda a literatura relevante sobre o tema de vieses, bem como tome conhecimento e registre os principais casos já conhecidos e publicados no Brasil e no mundo;

Desenhe o problema de pesquisa de maneira clara e declare seus objetivos junto a toda equipe de criação de produtos e com a empresa em geral para alinhar as expectativas;

Defina etapas e critérios de realização da pesquisa e mensure a efetividade posterior do trabalho. Uma área de mitigação de vieses de produtos deve escolher um período de análise para organização dos resultados. A sugestão é que seja realizado mensalmente, pois é um marco temporal comercial importante e pode dar uma dimensão mais aproximada das dificuldades encontradas;

Por fim, construa hipóteses sobre as fontes de vieses e as examine para estabelecer as relações de causa e efeito para monitoramento e aperfeiçoamento contínuo dos produtos.

Um plano de pesquisa poderoso e bem executado poderá garantir o êxito do trabalho.

Passo 4 — Desenvolva um plano de comunicação eficiente

Por que criar um plano de comunicação e como isso contribui para mitigar o efeito dos vieses nos produtos digitais? É preciso criar inicialmente um entendimento interno nos colaboradores da empresa sobre a questão dos vieses e sua importância tanto na construção do produto, quanto na questão ética e também reputacional. É preciso partir do pressuposto de que o tema de tratamento de vieses não é atraente para a maioria das equipes, que estarão focados em suas próprias rotinas. Os arquitetos de dados, engenheiros de software e machine learning, os cientistas e analistas de dados precisam estar atentos, sensíveis e motivados a trabalharem em cima da questão. Os gerentes de produtos precisam compreender e administrar o assunto de vieses dentro de suas equipes. Os gestores da empresa precisam estar conscientes dos riscos e seus cálculos para poder agir e tomar decisão de maneira correta e segura.

Sabendo da importância do plano, seus vários stakeholder e os níveis corporativos que eles envolvem pode-se, então, implementar um plano de ação.

É fundamental que o plano seja realizado junto com a área de comunicação da empresa, pois ela já tem mapeados os canais de comunicação que funcionam melhor, tem conhecimento das estratégias mais eficazes e identifica com precisão os públicos envolvidos, suas resistências e aderências. Realizando o alinhamento com a área de comunicação sugere-se desenvolver as seguintes fases:

Planeje as ações estrategicamente considerando o tempo e engajamento. É preciso realizar um planejamento estratégico que envolva a definição dos recursos disponíveis e o principal recurso a ser calibrado será o tempo das diversas equipes da empresa para lidar com o tema.

Ajuste bem as mensagens e conteúdos. Os diversos setores e a maioria dos colaboradores da companhia terão que ser convencidos da relevância do tema, portanto, é preciso que as mensagens sejam muito bem construídas e os conteúdos precisam gerar um forte impacto de persuasão. Nesse sentido, será preciso conhecer bem o público que receberá a mensagem e quais os melhores canais para acessá-los.

Defina indicadores de resultado. Em conjunto com o plano de pesquisa e desenvolvimento será preciso definir bem indicadores para avaliar a efetividade tanto da comunicação quanto da pesquisa desenvolvida.

Passo 5 — Garanta a política de privacidade dos dados dos usuários

O último passo é estabelecer uma política de privacidade de dados dos usuários dos produtos como um elemento inegociável. É fundamental construir uma infraestrutura de dados que garanta a privacidade e para isso as identificações e dados pessoais dos usuários devem ser removidos definitivamente. Com o consequente uso de mecanismos e técnicas de anonimização dos dados (por exemplo, supressão, generalização, re-redação, tokenização, perturbação, substituição e encriptação). Os conhecimentos gerados da pesquisa não podem permitir a de-identificação dos usuários caso seja relacionado com outras informações externas posteriormente.

Por fim, destaca-se que este não é um roteiro fechado para uma área de mitigação de vieses de produtos digitais, pois o problema é muito novo, o cenário é extremamente dinâmico e os produtos digitais evoluem de forma vertiginosa. A área terá que explorar o método de tentativa e erro, observar o que funciona e estar aberta para revisar o que não funciona de acordo com os critérios de controle de qualidade estabelecidos, desenvolvendo alternativas para aprimoramento. Não se deve ter medo do erro, mas é preciso aprender rápido com ele para seguir progredindo. Este processo será contínuo até que o sucesso ou uma solução satisfatória seja alcançada. Além do mais será sempre fundamental investir em pesquisa, disponibilizar mais estudos sempre respeitando a privacidade e adotando uma abordagem que seja multidisciplinar que permita o diálogo aberto entre a tecnologia, a ciência de dados, sociologia, comunicação e a ética. Todavia, dado o que já sabemos hoje, a inatividade em relação ao tratamento dos vieses e sua mitigação em produtos que usam reconhecimento facial não é a perspectiva mais produtiva.

Muito obrigado por ter me acompanhado até aqui. Quem quiser trocar ideia a respeito do tema de vieses, reconhecimento facial e inteligência artificial entre em contato pelo e-mail: elieser_ribeiro@yahoo.com.br

REFERÊNCIAS

BUOLAMWINI, J.; GEBRU, T. (2018). Gender shades: Intersectional accuracy disparities in commercial gender classification. In Conference on Fairness, Accountability and Transparency, pages 77–91.

RUBACK, L.; AVILA, S.; CANTERO, L. Vieses no Aprendizado de Máquina e suas Implicações Sociais: Um Estudo de Caso no Reconhecimento Facial. In: Workshop sobre as implicações da computação na sociedade (WICS), 2., 2021, Evento Online. Anais […]. Porto Alegre: Sociedade Brasileira de Computação, 2021. p. 90–101. ISSN 2763–8707.

--

--

Eliéser de Freitas Ribeiro

Sou sociólogo de dados, mestre em Sociologia, especialista em IA, especialista em pesquisa e análise de dados. Trabalho com Python, R, SQL, Power BI, Tableau.