Minha Jornada em Ciência de Dados (Parte 2)

Programa Data Science para Todos

Renata Galdino
6 min readAug 11, 2019
Jornada em Ciência de Dados (Parte 2)

Olá! Sejam bem-vindos(as)! Meu nome é Renata Galdino, eu sou fundadora da Seshat Analytics, e vim compartilhar com vocês a minha jornada no universo de Ciência de Dados.

Neste segundo post, eu vou continuar a contar sobre minha jornada em Ciência de Dados, incluindo minhas experiências em projetos, os desafios que tive e como me tornei uma especialista no assunto.

No primeiro post eu falei um pouco de mim e da minha experiência profissional.

O objetivo deste post é continuar contando minha jornada no mundo de Ciência de Dados.

Eu comentei no post anterior que fiz minha carreira em consultoria e desenvolvi vários projetos em estratégia e processos para diversas empresas.

Durante esse período eu sempre buscava agregar uma análise de dados para tornar o projeto mais eficiente para meus clientes.

O vídeo deste post está disponível em:

Minha Jornada em Ciência de Dados (Parte 2)

Jornada em Ciência de Dados: Quantificação de Risco Legal

Um dos primeiros projetos que fiz de análises avançadas, e também um dos mais interessantes, foi de modelagem quantitativa de Risco Legal de uma grande empresa.

Em linhas gerais, o cliente queria ter uma estimativa de quanto pagaria em ações judiciais com base no histórico de processos existentes.

A ideia era mapear as características dessas ações e atuar de forma proativa junto aos clientes para mitigar o risco e evitar um processo futuro.

O projeto inicialmente tinha uma duração de 6 meses e nós ficamos 6 meses só para mapear a origem de cada informação e para consolidar todos os dados.

Como eu disse no post anterior, me deparei em alguns momentos com empresas que possuíam muitas informações e/ou muitos sistemas que muitas vezes não se conversavam.

Desta forma, nosso primeiro trabalho foi mapear a origem de cada informação, cada sistema, cada produto, cada reclamação que poderia acarretar em um processo judicial contra a empresa.

Muitas pessoas pensam que o maior trabalho em um projeto de ciência de dados está na análise das informações, extração das estatísticas ou na modelagem quantitativa. E isso é um grande engano!

Geralmente, usamos de 80 a 90% do tempo só na coleta e preparação dos dados, ou seja, para mapear a origem, extrair dos sistemas, consolidar e tratar os dados.

https://i1.wp.com/www.seshatanalytics.com.br/wp-content/uploads/2019/08/DSPyramid.jpg?w=375&ssl=1

Depois que isso está pronto, gerar as análises e rodar um algoritmo é bem mais tranquilo.

Entretanto, se o processo de mapeamento das informações for feito de forma inadequada e você colocar lixo no seu algoritmo, pode utilizar o melhor modelo, a melhor tecnologia, mas o seu resultado vai ser lixo também.

Photo by Gary Chan on Unsplash

Por isso que mapeamento, coleta e preparação dos dados são as etapas mais importante desse processo.

Jornada em Ciência de Dados: Modelagem Quantitativa de Risco de Crédito

Em 2010, outra experiência marcante que tive foi quando realizei um projeto de desenvolvimento de modelos avançados de risco de crédito para um grande banco.

Foi um projeto bem grande e posso considerar que foi uma experiência incrível porque tive a oportunidade de trabalhar com times de fora do Brasil que já desenvolviam modelos super avançados no cálculo de probabilidade de inadimplência.

Nessa época, já havia uma oferta considerável de bons sistemas e modelos para trabalhar com ciência de dados. Além disso, as bases de dados de bancos são riquíssimas em termos de informações.

Esse cliente usava o SAS e foi uma maravilha poder trabalhar com uma ferramenta potente para esse tipo de análise.

Jornada em Ciência de Dados: O Mestrado

Outra grande experiência que tive foi quando fui fazer a minha dissertação do mestrado.

O tema do meu projeto final foi realizar uma análise preditiva de pacientes de alto custo com base nos dados do Datasus, que são os dados do Sistema Único de Saúde (SUS). As bases do Datasus também são riquíssimas em informações de saúde.

Estima-se que 10% dos pacientes com doenças crônicas correspondam a 75% dos custos em saúde.

E esse era exatamente meu objetivo com a dissertação: saber quais as características desses pacientes de alto custo.

E também foi um grande desafio me deparar com uma base de dados gigantesca.

Imaginem uma base com todas as informações de pacientes que utilizaram o SUS?

Eu usei um histórico de 4 anos para tratar os dados e isso resultou em uma base com quase 50.000.000 de registros.

Desta forma, eu tive que voltar àquele processo de ter que selecionar uma ferramenta e verificar qual seria a mais adequada aos meus objetivos.

O motivo: além de ter que executar análises em uma quantidade muito elevada de dados (afinal de contas, eram aproximadamente 50 milhões de registros), ainda teria que ser uma ferramenta parruda em termos de processamento, que rodasse algoritmos e gerasse os resultados que eu precisava.

Eu testei umas 4 ou 5 ferramentas naquela época até chegar na que realmente me ajudou: o Stata.

Coletar as bases do Datasus também não foi uma tarefa fácil. Havia uma limitação para extrair as bases, pois eu tinha que gerar as informações para cada mês e para cada estado.

Para que se tenha uma dimensão, eu usei 4 anos de análises (48 meses), para cada um dos 26 estados e o Distrito Federal.

Isso resultou em um longo processo de extrair e consolidar 1296 bases de dados. Show, né?

Eu posso dizer que eu me arrependi algumas vezes de ter escolhido esse tema…rsrs.

Photo by Pedro da Silva on Unsplash

Foi aí que eu encontrei a solução mais adequada: eu fiz toda a consolidação e tratamento das bases pelo ACL (ferramenta de auditoria de dados), gerei a base consolidada e usei o STATA para rodar os algoritmos e obter os resultados.

Apesar do enorme trabalho que deu, eu fiquei muito feliz com os resultados por se tratar de um assunto relevante e por poder contribuir para uma melhor avaliação de um cenário tão importante que é a saúde pública.

De acordo com o relatório PUBLIC SPENDING ON HEALTH: A CLOSER LOOK AT GLOBAL TRENDS da Organização Mundial da Saúde (OMS), os gastos totais com saúde estão crescendo mais rapidamente do que o Produto Interno Bruto (PIB) e estão aumentando mais rapidamente nos países de baixa e média renda (cerca de 6% em média) do que nos países de alta renda (4%).

Em 2016, o mundo gastou US $ 7,5 trilhões em saúde, representando cerca de 10% do PIB mundial.

E esse é um motivos que mais me fascina no uso de ciência de dados: a possibilidade de usar informações para melhorar a qualidade de vida das pessoas e dos serviços prestados.

Imagina poder usar dados para descobrir os padrões de pacientes crônicos de alto custo e poder prevenir essas doenças antes que ocorram?

E você, já teve experiência analisando dados? Deixe seu comentário.

Até o próximo post!

Espero que vocês tenham gostado. Muito obrigada!

Gostou? Clique nos aplausos — eles vão de 1 a 50 — e deixe o seu comentário!❤

Siga nossas redes sociais:

Facebook, Instagram, Twitter, Tumblr, Linkedin e nosso Site.

Assine também nosso canal no Youtube

Veja nossos outros artigos em:

https://medium.com/@renatagaldino

--

--

Renata Galdino

Responsável pelo blog Seshat Analytics (www.seshatanalytics.com.br) com objetivo de promover o uso de técnicas avançadas de Data Science, Machine Learning e AI.