Existe solução para lidar com o viés nos dados?

Artur Magalhães
Tecs USP
Published in
3 min readSep 29, 2018

Dentro do campo de inteligência artificial, se fala muito sobre modelos. Um modelo é, basicamente, algo que define um comportamento. Por exemplo, quando aprendemos a somar números, sabemos que o símbolo “+” representa a soma, e “-” a subtração. Ao juntarmos dois números com o símbolo da soma, os dois valores são agregados. Ou seja, criamos um modelo, que dada uma entrada — dois números — conseguimos produzir uma saída.

Apesar do exemplo representar algo comum no dia a dia da maioria das pessoas, ele representa bem o que seria um modelo no campo de inteligência artificial e ciência de dados — algo que produz uma saída com base na entrada, seguindo princípios pré definidos ou aprendidos.

Sabemos que nossa sociedade é permeada de preconceitos, e certas informações, como cor, gênero, região, podem acabar alimentando esses modelos e reforçando preconceitos. Aí que entra o famoso “bias”, o viés na tomada de uma decisão. Vale reforçar que vieses estão presentes na maioria das análises, e podem acabar não sendo prejudiciais. Mas como mencionado, o fato de diversos dados carregarem preconceitos de “fábrica” , a tomada de decisão pode prejudicar indivíduos e grupos sociais, que principalmente acabam sendo as minorias.

Mas afinal, será que é possível se livrar do viés, quando treinamos um modelo? Apesar de ser difícil, algumas ferramentas recentemente lançadas vieram para ajudar a lidar com esse problema. Com o nível de automação de processos crescendo cada vez mais, em grande parte pelo aumento e incentivo do uso de inteligência artificial, em diversos serviços que utilizamos no nosso dia a dia estamos, mesmo que indiretamente, lidando com decisões realizadas por máquinas.

E o processo no qual esses modelos são construídos, são pautados principalmente pela grande quantidades de dados que eles recebem. Os dados podem ser de diversos tipos, e estes fornecem ao modelo uma base na qual um algoritmo ganha conhecimento. Mas em diversos casos, vemos que quando existe um viés nas “entradas” para o modelo, o aprendizado vem com conclusões errôneas, e certas vezes, preconceituosas.

Sabemos destes problemas, mas o que fazer? Existem algumas soluções, de código aberto disponíveis para uso, que viemos compartilhar com vocês:

What If Tool

Essa ferramenta — lançada pela galera da Google no dia 11 de setembro deste ano — é uma funcionalidade nova para o Tensorboard (ferramenta visual do Tensorflow) para visualização dos resultados do modelo produzido. Ela permite diversas observações dos resultados apresentados por um modelo, e fornece, sem a necessidade de código, complementos para verificar a equidade dessa saída. Com 5 botões, no qual o usuário seleciona entre: “Group Unaware”, “Equal Opportunity”, “Equal Accuracy”, “Demographic Parity”, “Group Threshold”.

Em cada uma das categorias, lidamos com diferentes tipos de problema gerados pela a análise dos dados, como , por exemplo, quando não queremos realizar uma segmentação de gênero — Group Unaware — ,definir patamares mínimos para esses grupos — Group Threshold -, equilibrar porcentagens — Demographic Parity -, evitar o favorecimento e os possíveis erros atrelados a gênero , por exemplo — Equal Opportunity e Accuracy.

A ideia de podermos verificar essas questões de uma forma visual facilita a vida do cientista de dados, e além disso, demonstra que é possível evitar o reforço de preconceitos nos modelos e reduzir os impactos negativos seriam gerados, caso não fizéssemos as devidas correções.

A equipe que desenvolveu essa ferramenta escreveu um texto bacana sobre a questão de justiça em sistemas de IA.

Na mesma linha do What If ,a IBM e a Accenture recentemente lançaram ferramentas com o propósito de reduzir o viés das decisões, ao passo que possibilita a explicação na decisão tomada pelo modelo. Como ambos são softwares fechados — a IBM prometeu que futuramente liberará sua ferramenta para o público em geral — não os mencionaremos tanto aqui.

As atitudes dessas empresas demonstram o quão relevante e crescente é a questão do viés embutido em modelos que afetam a toda a população. Eles estão presentes desde a aprovação do crédito para nossos cartões e concessão de empréstimos, aos padrões de consumo quando compramos pela Internet. Tratar esses dados da forma correta, além de evitar o reforço de preconceitos, cria uma comunidade mais consciente dos seus impactos.

--

--

Artur Magalhães
Tecs USP
Editor for

Data Scientist @ Amazon | Computer Science Alumni @ USP | ML and DS lover