Dados metereológicos traduzidos em Mixed Media, por Natalie Miebach

Ciência de dados e a importância de sua humanização

Victor Hugo Barreto
Jun 26 · 12 min read

por Victor Hugo Barreto
com contribuições de
Rodrigo Turra e Sarah Brito
edição e prefácio de
Gustavo Nogueira (Gust)

Sandglass é parte de nosso programa contínuo de estudos do tempo. A infraestrutura social afetiva na qual a TORUS, semanalmente, convida um especialista a compartilhar conhecimento sobre sua visão do tempo ao redor por aproximadamente uma hora. Enquanto correm os grãos de areia da nossa ampulheta, reforçamos nossa conexão em rede, estreitamos relações e experimentamos, em um espaço seguro de construção e troca.

Chegamos à era do Big Data. Tempos em que o processamento de imensos volumes de dados que produzimos cotidianamente é objeto de disputa, já que seu acesso e posse decidem nossos futuros. No entanto, como podemos utilizar estas informações para contribuir com avanços sociais no mundo e para tempos melhores?

Letícia Pozza, nossa convidada do Sandglass dessa semana, é Data Scientist Strategist e acredita que um bom uso dos dados pode nos empoderar para vidas melhores. Vamos entender como através dos dados podemos encontrar a versão mais humana de nós mesmos.

Sandglass ⧖ Torus : Data / Leticia Pozza

Nosso aprendizado nesse encontro partiu do objetivo de entender o conceito central de produto de dados, ou seja, do processo de desenvolvimento desses produtos analíticos, base da ciência de dados, e de como ele abarca as mais diferentes áreas.

Dado é petróleo?

Se tornou um senso comum a afirmação de que dados são o novo petróleo deste século. A analogia com a ideia de extração ou mineração e que a partir de um tratamento específico gera produtos e moeda de troca pode fazer sentido à uma primeira vista. Porém, Letícia nos alerta que, se olharmos com mais atenção, a comparação é um tanto equivocada.

O petróleo é um produto natural fruto de milhares de anos de decomposição de matéria orgânica, o qual usamos como base para a produção de outros produtos. Já os dados vem de uma interação nossa com certos aparelhos tecnológicos, são subprodutos dessa relação que se estabelece a partir de nós mesmos. E, ao contrário do petróleo, nossos dados servem para compreender comportamentos e relações. Para além do fato de que o petróleo também é um recurso esgotável, enquanto nossos dados são infinitos.

Fonte: The Economist

É importante que se faça essa primeira diferenciação, porque a nossa relação com o recurso do petróleo é de exploração em termos extrativistas, esgotável em seu fim. Enquanto que a relação com os dados produzidos é a de uma exploração em termos de pesquisa contínua e retroalimentável a partir de uma infinita possibilidade de análises.

Os dados são infinitos, nesse sentido, porque toda vez que determinado produto é desenvolvido para gerar interação com as pessoas, essa interação gera novos dados que vão precisar de novas ferramentas e soluções de análise (que a ciência de dados vai buscar nas mais diferentes disciplinas) e daí, a partir de uma compreensão maior sobre nós mesmos, conceber o design de novos produtos; uma cadeia retroalimentável, dessa forma.

“Desenvolvimento de produtos voltados para a interação por um lado e dados que se produzem e geram aprendizados por outro. Os dados, na verdade, nessa relação de troca, servem para que a gente aprenda mais sobre nossos comportamentos, sobre nossos padrões e sobre a nossa vida como um todo”

Produtos que contém dados x produtos de dados

Outra diferenciação importante que precisamos fazer é entre “produtos que contém dados” dos “produtos de dados”. Produtos que contém dados são aqueles cujo propósito inicial não era a geração ou análise de dados, mas sim possibilitar trocas e serviços, tais como o Instagram, Gmail ou plataformas de e-commerce. Esses produtos se orientam pelos dados que consequentemente são gerados nessas trocas e serviços para sua otimização.

Já os produtos de dados nasceram com o propósito de analisar os dados que são gerados pelas pessoas em seu tráfego por diversas plataformas, baseados neles, daí a necessidade de produtos tais como Google Analytics (sobre dados do Google), Alexa (sobre dados da Amazon) ou 23andMe (sobre dados de ascendência genética). A tendência é a de que os produtos de dados aumentem cada vez mais.

A infinitude de dados que acontece a cada minuto no mundo. Fonte: Visual Capitalist

Esses dados gerados podem nos ajudar a tomar decisões tanto inspiradas quanto orientadas por dados. As decisões inspiradas por dados são aquelas nas quais não estabelecemos regras e cálculos a princípio, as decisões são tomadas à medida que temos conhecimento das informações e suas variáveis. Já as decisões orientadas por dados são aquelas em que nos organizamos previamente com um método ou um conjunto de regras determinadas (que funcionariam como algoritmos). Escolhas feitas a partir de um método orientado por dados. Uma não é melhor do que a outra, são apenas formas diferentes de poder se utilizar da potência dos dados.

O que é então ciência de dados?

É a união entre conhecimentos e aplicações de diferentes ciências a partir de uma ideia de aplicabilidade. Explicando em termos práticos: é fazer perguntas em busca de profundos e ocultos padrões num oceano de dados que estão disponíveis das mais diversas formas e plataformas. Esses dados combinados em padrões e analisados a partir de uma lente multidisciplinar e tecnológica vão servir de base para o desenvolvimento de ferramentas e novos produtos aplicáveis. Ou seja, a produção de produtos que respondem perguntas preditivas e produtos que empoderem outros a usar dados.

A Data Science se diferencia das pesquisas acadêmicas comuns no sentido de que tem o eixo da aplicabilidade como um dos seus pilares e também se diferencia de outros processos de análise justamente pelo cenário contemporâneo em que o conjunto de Big Data a torna mais necessária.

“Não acredito em perguntas que não sejam enviesadas e também não acredito em amostras que não tenham limitações, porém os modelos que podem ser utilizados pela computação hoje nos ajudaram a ampliar o nosso cenário em termos de data set. Isso amplia nosso conhecimento sobre nós mesmos e nos ajuda a desenvolver (e de forma muito mais rápida) novos produtos e ferramentas que melhoram esse cenário ao longo do tempo.”

Essa é a grande diferença: poder analisar esses contextos e testá-los dentro de cenários variáveis que não são mais tão hipotéticos justamente pelo conjunto de informações que nos permitem escalas de testagem muito maiores e com uma tecnologia que permite aceleração e grande capacidade de processamento.

Escala de complexidade dos produtos analíticos

O desenvolvimento de produtos analíticos (ou de dados) envolve, dessa forma, uma complexidade tão grande quanto a de produtos tradicionais. Ela se divide da seguinte forma:

. um produto de dados mais simples que é o dado bruto e sua organização;

. em um passo seguinte essas informações podem ser compiladas em variáveis menores (a partir de KPI’s, por exemplo);

. uma outra forma é a organização da informação em visualizações ou dashboards (chamada de dataviz ou visualização de dados)

. no desenvolvimento de produtos analíticos os algoritmos nos ajudam enquanto ferramentas. Seja na criação de relações preditivas (como com o algoritmo Prophet do Facebook e a probabilidade de sazonabilidade das publicações), quanto também prescritiva (como o algoritmo do Waze que indica as melhores rotas a partir de um conjunto histórico de dados).

Essa escala de complexidade dos dados brutos até os algoritmos é acompanhada também por uma complexidade tecnológica e da quantidade de conhecimento envolvido.

“Isso quer dizer que para eu conseguir construir um algoritmo prescritivo muito bom eu tenho que primeiro olhar para meus dados brutos, organizá-los de uma forma simples, visualizá-los ao longo do tempo, tentar prever o que vai acontecer e, só então, através das interações que eu tenho nessa previsão, eu começo a desenvolver o que a gente chama de algoritmo prescritivo”

Ainda que a complexidade tecnológica aumente nessa escala, é importante deixar claro que na interface com o usuário ou cliente, a complexidade deve ser inversamente proporcional. Ou seja, essa complexidade tecnológica precisa ser traduzida em simplicidade ao alcance do uso comum. E é assim que funciona com algoritmos como o Google, o próprio Waze, o Spotify e outros.

O Dado e o Tempo

Essa escala de complexidade elencada acima também pode ser pensada em termos de tempo, de passado X futuro. Se pararmos para pensar: um ponto de dado nada mais é do que um frame de tempo. Cada número (10010101) é uma representação do tempo em uma base de dados. Esses números são como representações de algo (um pensamento, uma pessoa, um contexto…) dentro de uma base de dados no passado, isto é, de algo que já aconteceu.

Mas a partir do momento que unirmos uma quantidade muito grande dessas informações, analisá-las, testar diversos padrões e observá-las, começo a identificar como elas provavelmente agirão. Essa probabilidade é uma noção do que pode ser o futuro, a partir desse entendimento do passado.

Importante enfatizar que a ciência de dados não é uma predição do futuro exata, é a construção de uma análise probabilística que indica padrões que podemos aplicar estrategicamente.

O processo de desenvolvimento de produtos analíticos

Os 5 passos duplos para o desenvolvimento de produtos de dados, usando o exemplo prático do 23andMe:

Fluxo do usuário da plataforma 23andMe
  1. A partir do meu desafio (informar sobre a saúde), eu entendo a minha solução (análises comparativas genéticas)
  2. A partir do meu usuário (leigos, mundo), eu entendo qual o formato da entrega (relatório informativo online)
  3. A partir das decisões que eu tomo (alimentação, esportes, hábitos), eu entendo quais são as entradas & saídas do meu algoritmo, da minha fórmula ou da minha base de dados (In: DNA; Out: variantes genéticos)
  4. A partir das barreiras que eu vou encontrar (confiança, regulação), eu entendo as regras que preciso construir (tutoriais, acurácia, contratos)
  5. A partir da resposta que eu quero (quais variantes possui ou não), eu defino como vou mensurar o meu sucesso (prevenção)

O cientista de dados aqui sendo diretamente responsável pelas partes de solução, formato e entradas e saídas. O restante trata-se de um trabalho conjunto produzido com organizações e, principalmente, com os usuários. Sem o usuário, o trabalho de um cientista de dados não se sustenta.

Produtos de dados, portanto, são soluções baseadas em dados, mas construídas a partir de pessoas, de processos, de políticas e da tecnologia.

Interdisciplinaridade

“Um produto analítico para ser desenvolvido é muito mais complexo do que simplesmente um algoritmo ou uma fórmula, ele transcende o âmbito da ciência de dados. A glamourização que existe em torno acaba diminuindo outras áreas importantes como a cultura, os processos, a regulamentação e leis, áreas que cada vez precisam estar mais presentes junto com a ciência de dados”

O cientista de dados não só precisa ter o diálogo com essas outras áreas, como ele também não pode ser o único responsável pela aceleração das organizações. Se no texto do empreendedorismo social Priscila nos alertava para o empreendedor X, aqui Letícia fala dos riscos do “cientista de dados unicórnio”:

“Uma pessoa só não vai solucionar a vida das empresas. Existe uma fantasia do mercado que é a do cientista de dados unicórnio, aquela pessoa que tem a capacidade de fazer tudo. Ela é ninja da matemática, da estatística, da computação, de negócios, de comunicação, de storytelling com dados, de visualização, …enfim, não tem como encontrar um único profissional que vai fazer tudo isso. É uma ilusão e uma desqualificação de outras áreas importantes como a de business intelligence, por exemplo. A ideia é complementar não diminuir”

Para além do hype

Ainda que palavras como sinergia e disrupção estejam na moda no universo do mercado, e por isso, um certo hype em torno do que a ciência de dados representa no espírito do nosso tempo, é preciso que essas palavras façam sentido de fato, e que estejam voltadas para a construção e aceleração de cenários outros.

“Acho importante destacar também que existe uma troca e inovação que nasce justamente de colocar junto linguagens, abordagens e perspectivas diferentes e quando você coloca um único profissional para resolver tudo isso, a probabilidade de ter um resultado enviesado é maior ainda” — Gustavo Nogueira

A ciência de dados em projetos sociais

Para além do âmbito empresarial, a ciência de dados transborda para a aceleração de cenários possíveis na sociedade em geral. Com o surgimento de organizações institucionais de dados (o Brasil, por exemplo, é referência mundial em organização de base de dados devido à política de implementação do Bolsa Família e o cadastro de 100 milhões de brasileiros no CADSUS, o que já possibilita análise a partir de variáveis em três gerações) políticas públicas poderão ser desenvolvidas se utilizando desse saber.

A interação é nova, assim como os projetos que estão começando a analisar esses dados, exige transparência (o que nem sempre é desejado pelo Estado) e cheia de possibilidades.

Georgia Lupi acredita que dados precisam ser contados e analisados de forma mais humana

Assim como uma possibilidade para projetos voltados para o impacto social:

“Uma frase que é dita como piada entre as pessoas que trabalham com projetos socioculturais ou de impacto social é: “Mudar o mundo é muito fácil, difícil é fazer o relatório depois”. Porque é isso: como é que você vai mensurar elementos tão subjetivos como, por exemplo, o empoderamento? E a ciência de dados pode mudar esse cenário contribuindo com essas análises” — Sarah Brito

A contribuição pode vir nem que seja na definição desses critérios, de criar planos de mensuração (pensamento sistêmico?):

“A gente tem que ter muito cuidado com essas formas de medir as coisas, porque os fenômenos mudam e os algoritmos que estamos criando vão mudando também. Se hoje montamos uma métrica aqui para medir empoderamento, daqui a cinco anos esse empoderamento vai ser uma coisa diferente, essas métricas sempre precisarão ser modificadas. Não há métrica perfeita, o que fazemos é ir modificando e aprimorando ela” — Francisco Estivallet

Trata-se de uma atenção ao processo que coloca a transparência de valores como algo básico e primeiro:

“A gente fala sobre a democratização da ciência de dados, quando na verdade é a democratização da informação que traz o poder e distribui o poder. Se eu tenho uma informação privilegiada eu tenho poder, não estou disposto a abrir as regras e as informações para poder distribuí-las”

O que percebemos no cenário sociopolítico atual é a disputa entre diferentes narrativas de regulamentação: nacionalismo x globalismo; privacidade de dados x dados abertos; sendo que o foco principal ao qual ambas devem procurar resposta mais democrática possível é: a quem mais impacta (positiva e negativamente)?

Uma boa imagem para refletirmos sobre isso é a ficção distópica “The Circle”, na qual é feita uma projeção do impacto sociopolítico com relação a transparência.

Para concluir

O potencial de mudança que a Ciência de Dados possibilita é, assim como a sua produção, infinito. Ciência que nasce da relação que estabelecemos com a tecnologia, aponta que o elemento principal nessa equação continua sendo o humano.

Leticia Pozza, Gustavo Nogueira, Francisco Estivallet, Vinicius de Paula, Victor Hugo Barreto, Sarah Brito, Carol Coroa, Rodrigo Turra, Morena Mariah e Victoria Haidamus

Indicações para se aprofundar no tema:

Livros:

  1. “Algorithms to Live By: The Computer Science of Human Decisions” — Brian Christian and Tom Griffiths
  2. “Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy” — Cathy O’Neil

Blog:

  1. https://flowingdata.com/

Medium:

  1. Cassie Kozyrkov
  2. Giogia Lupi
  3. Towards Data Science

Veja mais registros do Sandglass aqui:

Nós somos a TORUS, movimento com atuação global e bases em São Paulo e Amsterdam, que promove mudanças em culturas organizacionais, somadas a um despertar cultural na sociedade.

Desenvolvemos metodologias experimentais e proprietárias baseadas em traduzir e compartilhar conhecimento relevante sobre as transformações necessárias ao nosso tempo.

Junto a uma rede de parceiros e especialistas ao redor do mundo, investimos em estudos originais e na construção de espaços seguros de aprendizado e troca como infraestruturas sociais necessárias ao mundo de hoje.

Torus

Estudos do Tempo (Time Studies)

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade