Coletando dados abertos do governo brasileiro para seu projeto de dados

Vitor Ferreira Lins
Data Hackers
Published in
2 min readDec 21, 2023
Imagem: DALL-E 3 com Bing Chat

1 Introdução

Independentemente de qual ramo da área de dados, é sempre importante ter bons projetos no seu portfólio, e usar dados verdadeiros conhecidos e verificáveis é sempre uma boa ideia.

Em vez de conjuntos de dados pré-processados e “já manjados” de desafios do Kaggle ou de algum pacote de datasets de demonstração de alguma biblioteca gráfica, seu portfólio vai ter muito mais valor se você usar dados “da vida real”, que contenham informações de interesse para empresas de algum ramo específico.

Anteriormente, eu já apresentei uma ideia de como coletar dados do Google Shopping, agora eu vou apresentar uma fonte de dados que é usada na vida real por empresas que prestam serviços e soluções baseados em dados. Trata-se do Portal de Dados Abertos (dados.gov.br) do governo brasileiro.

2 Encontrando os dados mais valiosos

Você poderia me dizer que qualquer conjunto de dados presente nesse portal já é bom o suficiente para mostrar suas habilidades com manipulação de dados, e até com a produção de análises e modelos preditivos. Não estaria errado, mas é bem melhor se você puder apresentar tudo isto e ainda ter algum valor de negócio para apresentar ao final, respondendo perguntas como:

  • “Como esta solução pode ajudar a customizar a experiência do usuário?”
  • “Qual o impacto que esta previsão pode ter nas despesas?”

O segredo para encontrar datasets com valor de negócio, está em desenvolver esta linha de raciocínio antes de fazer a pesquisa:

  1. Decidir o setor que eu quero analisar
  2. Encontrar dados divulgados pela agência reguladora responsável por este setor
  3. Explorar o perfil desta agência procurando por assuntos de interesse

Devem existir outros dados com valor de negócio que você não vai encontrar com este método, ou outros métodos melhores para este propósito, mas este foi o que funcionou para mim, sinta-se livre para adicionar a sua contribuição nos comentários.

3 Já decidi, agora como obtenho os dados?

Normalmente não é necessário nenhum código para acessar os dados, para ter acesso, basta clicar no título do dataset que você escolheu, clicar no menu dropdown “Recursos”, e depois clicar no botão “Acessar recurso” para cada item que você deseja obter.

Alguns dados podem estar em servidores FTP, ou em formatos não convencionais, mas saber como lidar com dados faz parte da sua profissão, tome como um desafio e uma oportunidade de aprender.

Espero que as informações deste artigo sejam úteis para os seus desafios de dados. Lidar com dados e apresentar seu valor é vital em nossa profissão, e cada desafio é uma chance de aprender. Desejo-lhe sucesso e boa sorte na sua jornada. Até mais!

--

--

Vitor Ferreira Lins
Data Hackers

Data Scientist in Brazil, Bachelor's Degree in Economic Sciences. I like to talk about Data Science, Economics, and sometimes, also poetry.