Medindo Imparcialidade

João Ricardo Mendes
hurb.labs
6 min readAug 17, 2023

--

por PAIR with Google

Como você garante que um modelo funcione igualmente bem para diferentes grupos de pessoas? Acontece que, em muitas situações, isso é mais difícil do que você imagina.

O problema é que existem diferentes maneiras de medir a precisão de um modelo e, muitas vezes, é matematicamente impossível que todas sejam iguais entre os grupos.

Ilustraremos como isso acontece criando um modelo médico (falso) para rastrear uma doença nessas pessoas.

Verdade Fundamental

Cerca de metade dessas pessoas realmente têm a doença (personagem vermelho); metade deles não (personagem cinza).

Previsões de Modelo

Em um mundo perfeito, apenas pessoas doentes testariam positivo para a doença e apenas pessoas saudáveis testariam negativo.

Modelo de Erros

Mas modelos e testes não são perfeitos.

O modelo pode cometer um erro e marcar uma pessoa doente como saudável (na imagem, seria a representação do personagem vermelho de fundo cinza). Ou o contrário: marcar uma pessoa saudável como doente (personagem cinza com fundo vermelho).

Nunca deixe de acompanhar a doença…

Se houver um teste de acompanhamento simples, podemos fazer com que o modelo chame agressivamente casos próximos para que raramente perca a doença.

Podemos quantificar isso medindo a porcentagem de pessoas doentes (personagem vermelho) que testaram positivo (personagem vermelho com o fundo vermelho).

Você pode acompanhar a imagem abaixo e ter uma ideia melhor.

…E evite se preocupar ainda mais.

Por outro lado, se não houver um teste secundário ou se o tratamento usar um medicamento com suprimento limitado, podemos nos preocupar mais com a porcentagem de pessoas com testes positivos que estão realmente doentes (Personagem vermelho com fundo vermelho).

Esses problemas e compensações na otimização do modelo não são novos, mas são colocados em foco quando temos a capacidade de ajustar exatamente a agressividade com que a doença é diagnosticada.

Na íntegra (link aqui), você consegue ajustar a agressividade do modelo no diagnóstico da doença.

Análise de Subgrupo

As coisas ficam ainda mais complicadas quando verificamos se o modelo trata diferentes grupos de maneira justa.¹

O que quer que decidamos em termos de compensações entre essas métricas, provavelmente gostaríamos que fossem mais ou menos uniformes entre diferentes grupos de pessoas.

Se estivermos tentando alocar recursos uniformemente, fazer com que o modelo perca mais casos em crianças do que em adultos seria ruim! ²

Taxas Básicas

Se você olhar com atenção, verá que a doença é mais prevalente em crianças. Ou seja, a “taxa básica” da doença é diferente entre os grupos.

O fato de as taxas básicas serem diferentes torna a situação surpreendentemente complicada. Por um lado, embora o teste detecte a mesma porcentagem de adultos e crianças doentes, um adulto com teste positivo tem menos probabilidade de ter a doença do que uma criança com teste positivo.

Métricas Desequilibradas

Por que há uma disparidade no diagnóstico entre crianças e adultos? Há uma proporção maior de adultos saudáveis, então erros no teste farão com que mais adultos saudáveis sejam marcados como “positivos” do que crianças saudáveis (e da mesma forma com negativos errados).

Para corrigir isso, poderíamos fazer com que o modelo levasse em consideração a idade.

Isso nos permite alinhar uma métrica (clique aqui para ver a interação). Mas agora os adultos que têm a doença têm menos probabilidade de serem diagnosticados com ela!

Não importa como você mova os controles deslizantes, não será possível tornar ambas as métricas justas ao mesmo tempo. Acontece que isso é inevitável sempre que as taxas básicas são diferentes e o teste não é perfeito.

Existem várias maneiras de definir justiça matematicamente. Geralmente não é possível atender a todos eles.³

Conclusão

Felizmente, a noção de imparcialidade que você escolhe satisfazer dependerá do contexto do seu modelo, portanto, embora não seja possível satisfazer todas as definições de imparcialidade, você pode se concentrar nas noções de imparcialidade que fazem sentido para o seu caso de uso.

Mesmo que a imparcialidade em todas as dimensões não seja possível, não devemos parar de verificar se há viés. O viés oculto explorável descreve diferentes maneiras pelas quais o viés humano pode alimentar um modelo de ML.

Entenda mais!

Em alguns contextos, definir limiares diferentes para populações diferentes pode não ser aceitável. Você pode tornar a IA mais justa do que um juiz? explora um algoritmo que pode mandar pessoas para a prisão.

Existem muitas métricas diferentes que você pode usar para determinar se um algoritmo é justo. Atacar a discriminação com aprendizado de máquina mais inteligente mostra como vários deles funcionam. Usando Indicadores de imparcialidade em conjunto com a ferramenta What-If e outras ferramentas de imparcialidade, você pode testar seu próprio modelo em relação às métricas de imparcialidade comumente usadas.

Os praticantes de aprendizado de máquina usam palavras como “recall” para descrever a porcentagem de pessoas doentes com teste positivo. Verifique o Glossário do guia PAIR para aprender como falar com as pessoas que constroem os modelos.

“O apêndice”

Este ensaio usa padrões matemáticos muito acadêmicos para justiça que não abrangem tudo o que poderíamos incluir no significado coloquial de justiça. Há uma lacuna entre as descrições técnicas dos algoritmos aqui e o contexto social em que são implantados.

Às vezes, podemos nos preocupar mais com diferentes modos de erro em diferentes populações. Se o tratamento for mais arriscado para crianças, provavelmente desejaríamos que o modelo fosse menos agressivo no diagnóstico.

O exemplo acima assume que o modelo classifica e classifica as pessoas com base na probabilidade de estarem doentes. Com controle total sobre a taxa exata de sub e superdiagnóstico do modelo em ambos os grupos, é realmente possível alinhar ambas as métricas que discutimos até agora. Tente ajustar o modelo abaixo para que ambos se alinhem.

Acrescentar uma terceira métrica, a porcentagem de pessoas saudáveis a que testam e negativo, impossibilita a justiça perfeita. Você consegue ver por que todas as três métricas não se alinham, a menos que a taxa básica da doença seja a mesma em ambas as populações?

Créditos

Adam Pearce // maio de 2020 Obrigado a Carey Radebaugh, Dan Nanas, David Weinberger, Emily Denton, Emily Reif, Fernanda Viégas, Hal Abelson, James Wexler, Kristen Olson, Lucas Dixon, Mahima Pushkarna, Martin Wattenberg, Michael Terry, Rebecca Salois, Timnit Gebru, Tulsee Doshi, Yannick Assogba, Yoni Halpern, Zan Armstrong e meus outros colegas do Google pela ajuda com este artigo.

De Wee People do ProPublica.

Artigo original do PAIR by Google: https://pair.withgoogle.com/explorables/measuring-fairness/

--

--

João Ricardo Mendes
hurb.labs

Hurb.com CEO and Founder. Be curious. Read widely. Try new things. What people call intelligence just boils down to curiosity.