Data-humanism: quando os algoritmos são mais humanos do que parecem
Na primeira semana de dezembro assistimos a 28ª edição do Digital Talks no Santander, um evento para fomentar discussões sobre temas de tecnologia que estão em alta. Nesse encontro pudemos assistir a palestra de Letícia Ange Pozza, líder de Ciência de Dados na Cappra Data Science, sobre vieses em algoritmos e big data.
Letícia é responsável pela conexão do negócio e dos projetos da empresa com a equipe no Brasil. Seu papel é traduzir a ciência para os negócios e sintetizar a informação, misturando design e tecnologia, para estimular e desenvolver a cultura analítica para as pessoas e organizações.
A seguir compartilho os aprendizados e questionamentos que Letícia trouxe em sua palestra:
Muito se fala sobre Data Science, mas e suas consequências?
Quando se fala em ciência de dados é muito comum as pessoas pensarem: é uma área nova e é o futuro do digital, existe muito mercado a ser explorado e há um enorme potencial para se ganhar dinheiro, etc...
Tudo isso está correto, mas quais são as consequências desse trabalho? Qual o impacto que essa área tem se algo sair do controle? Todos os profissionais deveriam tem essas preocupações em todos os projetos.
O que é um produto de dados?
Produto de dados é uma solução (ou conjunto de soluções) com base em informações e dados orientadas pela necessidade de negócios que otimizam a tomada de decisão. Esse produto deve indicar um caminho disponível para atingir o objetivo.
Um exemplo disso é o Waze, que nos diz qual é o melhor trajeto baseado em diversas rotas e outras informações que os outros usuários informam.
E existem tipos diferentes de produtos de dados para soluções diferentes:
- Relatórios e análises
- Monitoramento de informações em tempo real
- Algorítimos que analisam situações
Ou uma junção de todas as opções acima.
Obviamente o mundo dos sonhos é uma inteligência artificial que indique qual é o perfil do meu cliente, o que ele está precisando que eu posso oferecer, qual o melhor canal para que eu atendê-lo, qual comunicação devo usar, quanto isso vai me custar e qual o lucro que terei com esse cliente.
Porém cada um dos produtos acima demanda um nível de aprendizado e, para subir ao próximo nível, o aprendizado e a complexidade aumentam, pois existem mais variáveis a serem analisadas. Não é um único caminho que a inteligência artificial tem que decidir seguir, mas diversas rotas que se intercalam ou não dependendo da grandeza de dados e informações.
Algoritmos devem aprender, mas nós estamos ensinando da forma correta?
Se nós não sabemos as respostas que queremos otimizar com a inteligência artificial, não é possível ensinar a máquina.
Pensando de forma simples, um produto de dados deve ter as seguintes etapas:
Receber dados > Treinar > Fazer testes > Passar por ajustes > Receber mais dados > Treinar mais > Fazer mais testes > Passar por mais ajustes > Receber ainda mais dados > …
E podemos ter diversos erros acontecendo nesse processo, por qualidade de código ou de qualidade durante o treinamento: situações que não foram imaginados, erros que não foram tratados, um hacker invadindo o sistema, erros de aprendizados, etc…
Se algoritmos aprendem, como nós estamos ensinando eles? Estamos ensinando máquinas de forma enviesada ou de forma justa?
Estamos direcionando o julgamento das máquinas por meio de vieses psicológicos, por exemplo:
- O ponto de vista de quem esta ensinando o que é “melhor” em uma situação muda de pessoa para pessoa e da situação em que estamos
- Quando o banco de dados usado na aprendizagem já é enviesado o ensinamento e funcionamento é inevitavelmente enviesado
- A divergência de opiniões ou falta de conhecimento do que e diferente para nós, fazem nosso julgamento ser errado e pender para onde estamos mais confortáveis
Fora isso temos algumas formas de ensinar e não temos total conhecimento de todas elas, por exemplo:
- Siga por determinado caminho (sem saber exatamente onde vai chegar)
- Encontre um padrão nesses dados (sem saber se realmente existe um padrão)
- Aprenda com esses dados que já estão classificados (mas talvez não tenhamos catalogado da forma mais adequada)
Então, como podemos ter certeza que a máquina está sendo justa com todas as pessoas? Sempre que selecionamos algo excluímos outra coisa, portanto, se selecionamos uma métrica, as outras são invalidadas. Todas as vezes que escolhemos, enviesamos a máquina.
Tomamos milhares de decisões por dia e os dados estão aqui para nos ajudar em algumas escolhas, mas eles podem estar nos enganando.
Será que realmente estamos preparados para ensinar máquinas a serem inteligentes ou estamos apenas reforçando vieses que nos dividem como seres humanos?