A regulamentação europeia e o direito a explicações

Algumas questões sobre a GDPR e os algoritmos de aprendizado de máquina

Nesta sexta-feira, 25 de maio de 2018, entrou em vigor a GDPR, o regulamento de proteção de dados da União Europeia aprovado em 2016, em substituição à DPD, diretiva de proteção de dados, vigente desde 1995. Todos estão falando sobre ela, ainda que parte seja por conta do incômodo causado pela enxurrada de emails recebidos sobre a atualização das políticas de uso dos sites em que estão cadastrados.

Uma amostra dos emails que recebi nos últimos dias: parece que o jogo virou, não é mesmo?

Embora seja uma legislação europeia, a GDPR tem impactos de escala mundial, pois também se aplica a cidadãos não europeus que estejam no território da União Europeia e dos três outros países signatários, Noruega, Islândia e Liechtenstein. Na prática, qualquer empresa que tenha clientes, fornecedores ou parceiros na Europa deverá se adequar ao regulamento.

Talvez um dos feitos mais importante da regulamentação seja instituir a privacidade por design e por padrão, ou seja, a partir desse momento, a proteção dos dados pessoais do usuário deve ser considerada desde o momento da concepção de um produto ou serviço, buscando a minimização de riscos e, além disso, ela deve ser feita automaticamente, sem necessitar de configuração adicional pelo usuário. Note que dados pessoais, conforme definidos no próprio regulamento, são “quaisquer informações relacionadas a uma pessoa natural identificada ou identificável”.

No entanto, as mudanças não param por aí: a GDPR, no seu artigo 22, restringe as decisões automatizadas baseadas em dados do usuário que o afetem significativamente, além de estabelecer o direito de contestação e de intervenção humana:

The data subject shall have the right not to be subject to a decision based solely on automated processing, including profiling, which produces legal effects concerning him or her or similarly significantly affects him or her.
[…] [T]he data controller shall implement suitable measures to safeguard the data subject’s rights and freedoms and legitimate interests, at least the right to obtain human intervention on the part of the controller, to express his or her point of view and to contest the decision.

Mais além, no parágrafo quarto do mesmo artigo, determina-se que decisões automatizadas, ainda que necessárias e autorizadas por lei, não podem basear-se em categorias especiais de dados pessoais, como origem étnica ou racial, opiniões políticas, crenças religiosas ou filosóficas, estado de saúde, e vida ou orientação sexual.

Estamos, há algum tempo, discutindo o impacto social de algoritmos de tomada de decisão, de forma que o intuito desse texto, amplamente baseado no artigo de Goodman e Flaxman, “European Union regulations on algorithmic decision-making a ‘right to explanation’”, é levantar algumas das consequências e desafios trazidos pelo regulamento a respeito dessa questão.


O princípio de não discriminação

De maneira ampla, a discriminação pode ser definida como o tratamento injusto de um indivíduo baseado em seu pertencimento a um grupo específico. Conforme já discutimos anteriormente, o uso de perfilamento [profiling] algorítmico é inerentemente discriminatório, uma vez que os usuários são agrupados em categorias de acordo com diversas variáveis, e decisões a respeito deles são tomadas a partir de seu pertencimento a elas. Além disso, como esses algoritmos dependem de dados coletados de uma sociedade que, por sua vez, é desigual e discriminatória, eles irão refletir esses padrões de discriminação: decisões enviesadas serão oferecidas como resultados de um algoritmo pretensamente objetivo.

O artigo 22 da GDPR trata especificamente da discriminação resultado do uso de dados sensíveis. No entanto, há duas interpretações possíveis, conforme ressaltam Goodman e Flaxman.

A primeira trata-se do uso direto de dados explicitamente sensíveis, como variáveis que codificam raça, gênero, etc. No entanto, a simples remoção delas não garante que a predição não as reflita, uma vez que elas são correlacionadas a outras variáveis não sensíveis. Tome, por exemplo, uma determinada região geográfica que tem um número alto de residentes negros. Um algoritmo que utilize essa informação para determinar crédito produzirá resultados influenciados por raça, ainda que não tenha recebido essa variável explicitamente. Disso decorre a segunda interpretação: dados sensíveis incluiriam não apenas variáveis sensíveis, mas todas as correlacionadas a elas.

Em conjuntos de dados pequenos, talvez seja possível identificar todas as correlações entre variáveis sensíveis e não sensíveis. Ainda assim, remover todos os dados relacionados às do primeiro tipo pode tornar a predição obtida virtualmente inútil. Por mais que o código postal possa codificar informações raciais, continuando com nosso exemplo, ele pode, ao mesmo tempo, oferecer informações não discriminatórias úteis para a previsão de default em um empréstimo. O problema fica ainda maior conforme o volume de dados aumenta, tornando as correlações mais complexas e difíceis de detectar: não é difícil perceber que código postal e raça são correlacionados, mas o que dizer a respeito de pares como provedor de telefonia móvel e raça?

Há, ainda, um outro desafio com relação a esse tópico, relacionado ao viés de incerteza. Seu surgimento ocorre da seguinte maneira: um grupo é sub-representado na amostra, de forma que há maior incerteza nas predições sobre aquele grupo. Se o algoritmo é desenhado para ser averso a riscos, tomando decisões baseadas em predições de maior confiança, ou seja, com intervalos de confiança menores, ele irá favorecer grupos mais bem representados no conjunto de dados de treinamento, já que haverá menor incerteza associada a essas predições. Note que a sub-representação de uma minoria em uma amostra pode surgir da discriminação histórica ou de menor acesso à tecnologia, mas também irá ocorrer em uma amostra aleatória construída mantendo as proporções de minorias na população.

Viés de incerteza: um algoritmo hipotético prediz a probabilidade de quitação de um empréstimo em um cenário no qual brancos e não brancos têm a mesma probabilidade de pagar, e oferece crédito apenas quando a extremidade inicial de um intervalo de confiança de 95% calculado para um indivíduo está acima de 90%. Quando não brancos compõem menos do que 30% da população, assumindo uma amostra aleatória, a sub-representação dessa parcela da população faz com que as predições referentes a ela tenham menor confiança, de forma que eles não recebem ofertas de crédito. Quando a proporção de não brancos se aproxima de 50%, o efeito de incerteza cessa-se. (GOODMAN e FLAXMAN, 2016).

Tudo considerado, o dilema apresentado pela GDPR é uma faca de dois gumes: se, por um lado, a interpretação mínima do requisito de não discriminação é ineficaz, a interpretação máxima é infactível. Enquanto não tivermos entendimento total de como os algoritmos agem na tomada de decisão, será difícil ter algum avanço nesse quesito.


O direito à explicação

Além do direito à intervenção humana, garantido pelo artigo 22, os artigos 13 e 14 da GDPR garantem o direito a “informações significativas a respeito da lógica envolvida, além da significância e das consequências previstas desse processamento para o usuário” no caso de perfilamento.

No entanto, qualquer pessoa da área será rápida em afirmar que obter informações a respeito da lógica envolvida na decisão de algoritmos sofisticados de aprendizado de máquina não é assim tão simples.

Conforme explica Hildebrandt (2008), os algoritmos usados para regressão e classificação baseiam-se no estabelecimento de associações ou correlações entre variáveis da amostra, para auxiliar na predição de dados não presentes nela. “Nesse sentido, o perfilamento é uma maneira indutiva de gerar conhecimento; as correlações colocam-se como uma probabilidade de que as coisas tomarão o mesmo rumo no futuro. O que elas não revelam é por que isso aconteceria. Na realidade, perfiladores não estão interessados em causas ou razões, seu interesse está em gerar uma predição confiável, que permita a tomada de decisões adequada”.

Em um artigo que tenta explicar o funcionamento do word2vec, um algoritmo que estudei na minha iniciação científica, os autores concluem que não têm a menor ideia de por que os resultados do algoritmo são representações eficazes da realidade.

Burrell (2016), ao estudar a opacidade desses algoritmos, distingue três barreiras à transparência: (1) o ocultamento intencional de seu funcionamento por parte das corporações e outras instituições; (2) a falta de fluência técnica por parte do cidadão, de forma que o acesso ao código fonte não é suficiente para entender seu funcionamento; e (3) a incompatibilidade entre a otimização matemática em grandes dimensões característica do aprendizado de máquinas e as demandas do raciocínio e interpretação humanas.

As duas primeiras barreiras são cobertas pela GDPR, nos artigos 13 e 14. Mas, ainda que sejam postas de lado, e nos reste apenas a última, um algoritmo só poderá explicado se o modelo treinado pode ser articulado e entendido por um humano. Como colocado por Goodman e Flaxman, “seria razoável supor que qualquer explicação adequada, no mínimo, fornecerá uma descrição de como os dados de entrada estão relacionados com as predições, de forma a permitir que perguntas como as seguintes sejam respondidas: o modelo é mais ou menos propenso a recomendar um empréstimo se o usuário é de um grupo minoritário? Quais variáveis têm um papel maior na predição?”

Os autores ressaltam que há um tradeoff entre a capacidade representativa de um modelo e sua interpretabilidade. Modelos de regressão linear, por exemplo, são fáceis de interpretar, mas podem representar apenas relações de duas variáveis. Na outra ponta do espectro, temos modelos como as redes neurais de diversas camadas, ligadas por pesos inicializados aleatoriamente, que se retroalimenta em busca do melhor resultado.

No estado da arte, esperar uma explicação inteligível a respeito da lógica utilizada no processo de tomada de decisão pelo algoritmo simplesmente não é viável.


Nas palavras de Goodman e Flaxman, “acima de tudo, a GDPR é um reconhecimento vital de que, quando algoritmos são empregados na sociedade, poucas decisões, se alguma, são puramente técnicas. Pelo contrário, o design ético de algoritmos requer a coordenação de recursos técnicos e filosóficos do mais alto calibre”.

Atualmente, temos muitos algoritmos caixas-pretas, que sequer podem ser explicados por seus criadores, ainda que diversos estudos voltados a explicar seus resultados estejam em curso. A caminhada até a transparência total ainda é longa, mas, com o regulamento em vigor, a tendência é que cada vez mais pesquisas sejam feitas nesse caminho.