Como se começa um projeto de Ciência de Dados?

Quais são as etapas de um projeto de Ciência de Dados o podemos chamar de Ciência.

Wellington Oliveira
Nov 7 · 10 min read

Data estelar 97451.64

“Ainda não saímos da doca espacial. Para essa missão, ajustamos nossa rota para navegar pelo Corredor Pythoniano. Precisaremos registrar toda essa nova rota, colher amostras no caminho e catalogá-las de maneira que outros navegantes que queira integrar nossas fileiras cheguem até o mesmo lugar que nós. Nossos especialistas de navegação estão tentando analisar as dificuldades da viagem.”

Bom, cá estamos no início da nossa jornada e na continuação da Série de posts. Se repararem bem não dei a definição de Ciência de Dados no primeiro artigo. Então seria legal começar definindo o que é Ciência de Dados? Qual seu propósito, suas atribuições e tudo mais…

“qual o significado da vida, do universo e tudo mais”. Fonte gfycat

Uma tentativa de definição seria dizer que Ciência de Dados é a área de estudos que reúne as disciplinas para identificar e extrair informação útil de grandes fontes de dados.

Mas peraí ? BI jão não faz isso?

Sim e não. Caso tenha dúvida recorra a nosso Guia no final do texto.

Existem muitas definições para Ciências de Dados. Como eu disse anteriormente, a área passa por um hype então marketing, mídia e comercial se apropriam do termo e tentam transformar em buzzword.

Eu procuro entendê-la pela maneira que o nome a apresenta: como uma ciência. E o que podemos definir como ciência? No michaelis uma de suas definições é:

Conhecimento sistematizado como campo de estudo

Seu propósito é apresentado de maneira curiosa por Robert C. Martins (Uncle Bob) em seu livro Clean Archtecture:

Science does not work by proving statements true, but rather by proving statements false. Those statements that we cannot prove false, after much effort, we deem to be true enough for our purposes.

Tradução Livre: A ciência não funciona provando que afirmações são verdadeiras, mas provando que afirmações são falsas. Aquelas afirmações que não podemos provar ser falsas, depois de muito esforço, consideramos ser verdadeiras o suficiente para nossos propósitos.

Procedimentos científicos devem ser replicáveis
Procedimentos científicos devem ser replicáveis
experimentos científicos são replicáveis. Fonte: Giphy

Essas duas definições juntas dão uma noção do que é ciência.

1 — Ciência é um estudo sistematizado de algo. A Física estuda os fenômenos naturais, a Economia a escassez e seus reflexos sociais.

2 — As ciências têm leis, teorias e teoremas que são suficientemente verdadeiros até que se prove algo que os derrube. O processo a que se chegou a essa prova deve ser replicável. Ou seja, outros que reproduzam os mesmos passos, deve chegar resultados similares.

Porque toda essa definição? Porque acredito ser interessante abordar um projeto de Ciência de dados com um pensamento sistemático e científico. Esse é um dos primeiros princípios fundamentais sobre Ciência de Dados, conforme o livro Ciência de dados para Negócios:

Princípio Fundamental: Extrair conhecimento útil a partir de dados para resolver problemas de negócios pode ser tratado de forma sistemática, seguindo um processo com etapas razoavelmente bem definidas.

As etapas variam um pouco em definição e quantidade de um autor a outro. Também de acordo com a perspectiva, mas não fogem muito de um processo geral.

As etapas “razoavelmente bem definidas” que irei seguir no meu projeto são inspiradas no mesmo livro. Segue um diagrama

Primeira coisa que se nota é que o processo é cíclico. Então é comum que se tenha que retornar em algumas etapas para avaliar se a direção foi correta.

Compreensão do Negócio

Como eu disse, Ciência de Dados resolve problemas respondendo perguntas sobre um domínio real. Já existe um estado atual das coisas. Você quer insights sobre ele ou quer melhorá-lo. Você tem um baseline. Não criará a partir do nada.

Além disso, nenhum Cientista de Dados trabalha sozinho. Ele tem proximidade com as áreas interessadas nas respostas. Essa interação permite obter uma visão mais apurada do que é uma resposta útil e quais são características e riscos são importantes de se levar em consideração.

Então tentarei simular um cenário de interesse. No post passado cheguei às seguintes perguntas:

Existe desigualdade de sexo em relação a Cargos e salários na esfera pública? Se sim, ela é maior ou menor comparada a média geral?

Empresas como a Catho fazem pesquisas anuais sobre questões salariais e tem sido comum liberarem sempre às vésperas do dia da mulher os resultados sobre as diferenças de salários entre gêneros. Sendo sempre citadas em matérias como essas em 2016, 2017 e 2018.

A pesquisa mostra as diferenças por cargos e áreas de atuação, mas até onde procurei não mostra a diferença de esfera pública e privada. O concurso seria um fator de interferência? Se a situação se repete esfera pública os resultados poderiam levar a uma ação para sugerir políticas? Criar ambientes mais atrativos para que mais mulheres prestem concurso? Ou se o problema não se apresenta da mesma forma no setor público é possível identificar algum padrão?

Com os dados atuais é possível traçar predizer os gastos com folha de pagamento do Estado?
Crise fiscal tem sido assunto permanente nos últimos anos. Culminou em Estados sem capacidade de pagar servidores ativos e aposentados. RJ, RS e MG foram figurantes de várias notícias. Empréstimos, parcelamento de salários, congelamento da reposição salarial foram algumas tentativas de correção.

Mas apesar da dificuldade de honrar pagamentos em muitos estados a distância entre o setor público e o privado aumentou conforme pesquisa destacada nesta matéria. Além disso, todos os três poderes tiveram aumentos acima da inflação conforme dados de consultoria.

O que se vê na esfera federal se repete no Estado de São Paulo? Na mesma proporção? Como a lei de Responsabilidade Fiscal pode afetar o Estado e com isso a progressão salarial?

Qual a proporção de cargos comissionados? Existem órgãos ou áreas em que apresentam maior quantidade?

Cargos comissionados são um assunto polêmico. Por um lado, representam uma oportunidade de contratar um especialista de maneira rápida, mas muitas vezes é usado como moeda de troca de favores políticos ou para exercer pressão política dentro da empresa/órgão . O Portal transparência informa quais cargos são comissionados. Em que órgãos/áreas são mais comuns? Quanto representam da folha de pagamento como um todo?

Além de pensar um pouco mais profundamente sobre as perguntas e possíveis interesses é bom entender um pouquinho sobre o cenário.

Na esfera pública não existe só um tipo de empresa. Elas se dividem entre administração direta e em indireta. Simplificando bastante, administração direta responde diretamente ao chefe do executivo e não tem pessoa jurídica (CNPJ). Os recursos vêm da conta única do Tesouro do Estado de São Paulo.

As administração indireta possuem pessoa jurídica própria e podem ter outras fontes de recurso que não só a do tesouro (lucro de prestação de serviço, capital privado e etc). Criadas a partir do princípio da descentralização.

Algumas das fontes onde encontrei essas informações:

http://www.planalto.gov.br/cciViL_03/Decreto-Lei/Del0200.htm

https://www.politize.com.br/administracao-publica-direta-e-indireta/

https://descomplica.com.br/tudo-sobre-concursos/administracao-publica-direta-e-indireta-entenda-as-diferencas/

A princípio não tive a necessidade de consultar, mas pode ser interessante saber que existem entidades ligadas de maneira importante à criação de concursos, cargos e salários. Uma delas é o Codec

Essas fontes e informações vão ser meus “substitutos” ao expertise que me falta no domínio . Este conteúdo é a base inicial de Conhecimento do Negócio.

Compreensão dos dados

Nessa etapa vamos abastecer nossa nave para provavelmente chegar até uma resposta. O combustível são os dados. Digo provavelmente porque no mundo real não é certo que os dados que já temos serão o suficiente para responder. Afinal é Ciência de Dados não Coaching. Nem sempre você pode.

As fontes geralmente não são únicas, podem conflitar e é comum necessitar de um trabalho árduo de organização. Em se tratando de dados públicos essa é uma “verdade muito verdadeira”.

Vamos ver que dados temos disponíveis:

Retribuição Mensal

http://www.recursoshumanos.sp.gov.br/retribuicaomensal.html

Possui a relação de cargos e salários em cada nível para toda a administração direta e autarquias.

Pelo que pude pesquisar os cargos tem a denominação, escalas, nível de formação (elementar Intermediário e universitário) e salários base, além de um confuso sistema de gratificação. Eles estão acessíveis por um menu de categorias da repartição pública que espero encontrar algum sentido. Também é possível ver os cargos por comissão.

Formato: HTML. Tabelas dispersas em vários menus

será que ainda dá tempo de desistir?

Essas tabelas apresentam relacionamento entre os cargos e salários relacionamento com o funcionário

Relação de Servidores

http://www.transparencia.sp.gov.br/BuscaAdmDirInd.html

Usando a própria descrição do site:

Relação dos servidores públicos da Administração Direta e Indireta demonstrando a situação funcional, ou seja, se efetivos ou ocupantes de função pública permanente, se temporário, se exerce cargo em comissão ou função em confiança, bem como a unidade em que trabalha.

Ou seja, aqui eu tenho a relação funcionário X empresa/órgão sem os salários somente para a administração direta.

E aqui:

http://www.transparencia.sp.gov.br/consultaempregadospublicos.html

Tenho os dados para administração indireta. Com a seguinte descrição:

Acesso à lista de empregados ou servidores dos órgãos da administração indireta (empresas estatais, fundações , autarquias e serviço autônomo), indicando o respectivo cargo/função que ocupa e unidade em que trabalha, bem como, se for o caso, de qual órgão está afastado.

Formato: Apesar de inicialmente ser apresentado num resultado de busca como tabela é possível baixar como CSV. Aleluia

Uma importante observação aqui:
Por questão de segurança da sociedade, a lotação dos agentes da Secretaria de Segurança Pública, da Secretaria da Administração Penitenciária e da Fundação CASA não será disponibilizada.

Provavelmente vou ter que excluir os dados referentes a essas organizações de meu projeto

Existem mais dois acessos de informação a seguir com relação de cargos vagos na administração direta e na administração direta e indireta. As informações não parecem relevantes para minhas perguntas nesse momento. Mas como o diagrama do projeto mostra acima a análise dos dados e o conhecimento de negócio se revisitam repetidamente e o próprio processo como um todo é cíclico. caso necessário vou revisitar

Remuneração

Para não deixar esse post mais longo que o necessário é possível ler as informações quanto a remuneração: http://www.transparencia.sp.gov.br/remunera.html

Alguns links são para dados que já descrevemos anteriormente.

A mais importante dessa página é o link que leva as buscas de remuneração mensal:
http://www.transparencia.sp.gov.br/buscaRemunera.html

Formato: CSV. A busca retorna os resultados do último mês. Além disso, link no fim da página tem arquivos .rar onde é possível baixar as informações históricas desde de 2012

Desafios sobre os dados

Dá pra ver logo de cara que os dados estão muito bem padronizados e relacionados….

Espera,eu me esqueci. Isso á a vida real!

Só que não….

Há formatos diferentes e meios de acessos diferentes que vão envolver processos de extração e transformação próprios.

Além do mais, se você clicou nos links e observou um pouco viu que não há nenhuma coluna que mostra o sexo da pessoa. Em projetos reais é comum ter dados incompletos para seu problema.

No mundo real se coloca a mão no bolso para completar dados em situações assim. Como não pretendo gastar com um projeto paralelo de aprendizado vou tentar usar a API de nomes do IBGE a meu favor. A mesma te dá a probabilidade de um nome ser masculino ou feminino. Glaubis, Tainãs e os/as Leomares da vida que me perdoem se o IBGE errar. Seus pais dificultaram as coisas.

Esses são só alguns desafios de uma rápida olhada pelos dataset. Mas não quero deixar essa leitura cansativa. Então…

Já chega não é?

Existem outras etapas no diagrama, mas convém abordá-las conforme for avançando. Na prática mesmo. As que abordamos hoje ainda serão revisitadas. Teremos muitas histórias de fé e superação pela frente.

No próximo post vou falar um pouco sobre o processo de aquisição de dados para esse caso e algumas ideias gerais sobre processos de scraping, ETL e Engenharia de Dados. Então minha pergunta de hoje para você que lê é a seguinte:

Que outros desafios enxerga ao olhar esses dados da Primeira vez? Como você os abordaria?

Comentários serão muito bem vindos!

O Guia do Mochileiro das Análises

API (Application Programming Interface): Interface de Programação de Aplicativos. Uma pessoa cria um aplicativo ou tem um grande dataset e quer disponibilizar várias funcionalidades para que outras pessoas trabalhem a patir dali, mas não querem que ponham a mão no código que lhe deu tanto trabalho. Eles providenciam uma API. Essa api geralmente tem uma lista de comandos que são direcionados a um endereço ou endpoint que você pode usar para extrair dados e funcionalidades.

BI (Bussiness Inteligence): É o primo executivo da Ciência de Dados. Os dois procuram gerar novas perspectivas e insights sobre a mesma matéria prima, os dados. As orientações deles são um pouco diferentes. Como executivo o BI é mais orientado a Indicadores de Performance (KPI’s) e trabalha com fórmulas mais definidas. Além disso, a base de dados de onde ele tira suas respostas é mais estruturada, geralmente apartada dos dados de produção apesar de extraída dos mesmos. A Ciência de Dados é um pouco mais experimental e trabalha muitas vezes com dados vindos em tempo real de maneira menos estruturada. Nem sempre tão disciplinada devido a sua natureza divertidamente exploratória se diferencia do BI também por ser mais preditiva. Consulte mais aqui e aqui.

Buzzword: Sabe quando você junta seu squad em um brainstorm para gerar insigths para a área do customer success conseguir entender o profile do seu nicho? Não? Nem eu.

Buzzword é uma palavra que vira mania ou moda dentro de um ambiente. Seja no mundo dos negócios ou social. Muitas delas derivam do inglês. É um pouco diferente de jargão, uma vez que um jargão técnico costuma ser um a palavra perene naquele meio.

CSV (comma separated value): extensão de um arquivo. Se refere ao formato. Como o próprio nome diz, é uma lista de valores que são separados por vírgula (entendeu Microsoft? vírgulas). É um texto plano. Sem criptografia. Muito comum, como maneira simplificada de gravar e disponibilizar dados para aplicativos e scripts. Amados por uns, odiados por outros. Cruzaremos com ele constantemente em nossa jornada.

DadonautaBR

O diário de bordo de um Cientista de Dados Padawan navegando por longínquos e obscuros datasets

Wellington Oliveira

Written by

DadonautaBR

O diário de bordo de um Cientista de Dados Padawan navegando por longínquos e obscuros datasets

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade