Sites para encontrar conjuntos de dados gratuitos para projetos de ciência de dados

Layla Comparin
rladiesbh

--

Se você já trabalhou em um projeto de ciência de dados, provavelmente passou muito tempo navegando na Internet em busca de dados interessantes para analisar. Pode ser divertido filtrar dezenas de conjuntos de dados para encontrar o perfeito. Mas também pode ser frustrante baixar e importar vários arquivos csv, apenas para perceber que os dados não são tão interessantes assim. Felizmente, existem repositórios on-line que organizam conjuntos de dados e (principalmente) removem os conjuntos desinteressantes.

Neste primeiro post do R-Ladies, vamos percorrer vários tipos de projetos de ciência de dados, incluindo projetos de visualização de dados, projetos de limpeza de dados e projetos de aprendizado de máquina, além de identificar bons locais para encontrar conjuntos de dados para cada um. Se você deseja fortalecer seu portfólio de ciência de dados mostrando que consegue visualizar bem os dados, ou se tem poucas horas extras e deseja praticar suas habilidades de aprendizado de máquina, vem com a gente. :)

Conjuntos de dados para projetos de visualização de dados

Um projeto típico de visualização de dados pode ser algo como “Eu quero fazer um infográfico sobre como a renda varia entre os diferentes estados dos EUA”. Existem algumas considerações a ter em mente ao procurar por bons dados para um projeto de visualização de dados:

  • Não deve ser confuso, porque você não quer gastar muito tempo limpando dados.
  • Deve ser interessante o suficiente para fazer gráficos sobre.
  • Idealmente, cada coluna deve ser bem explicada, portanto a visualização deve ser precisa.
  • O conjunto de dados não deve ter muitas linhas ou colunas, por isso será fácil trabalhar com ele.

Sites de notícias que divulgam seus dados publicamente podem ser ótimos lugares para encontrar conjuntos de dados para visualização de dados. Eles normalmente limpam os dados para você, e eles geralmente já têm gráficos que você pode aprender, replicar ou melhorar.

1. FiveThirtyEight

Se você está interessado em dados, você quase certamente já ouviu falar do FiveThirtyEight ; é um dos estabelecimentos de jornalismo de dados mais bem estabelecidos do mundo. Eles escrevem artigos interessantes baseados em dados, como “Don’t blame a skills gap for lack of hiring in manufacturing” e “2016 NFL Predictions”.

O que você pode não saber é que o FiveThirtyEight também disponibiliza os conjuntos de dados usados ​​em seus artigos on-line no Github e em seu próprio portal de dados.

Aqui estão alguns exemplos:

2. BuzzFeed

O BuzzFeed pode ter começado como um fornecedor de clickbait de baixa qualidade, mas atualmente também faz um jornalismo de dados de alta qualidade. E, assim como o FiveThirtyEight, publica alguns de seus conjuntos de dados publicamente em sua página do Github.

Aqui estão alguns exemplos:

3. ProPublica

A ProPublica é uma agência de reportagem investigativa sem fins lucrativos que publica o jornalismo de dados com foco em questões de interesse público, principalmente nos EUA. Eles mantêm um armazenamento de dados que hospeda alguns conjuntos de dados gratuitos, além de alguns dados pagos (role para baixo nessa página para passar pelos pagos). Muitos deles são ativamente mantidos e atualizados com freqüência. O ProPublica também oferece cinco APIs relacionadas a dados , quatro das quais são acessíveis gratuitamente.

Aqui estão alguns exemplos:

4. Socrata OpenData

Socrata OpenData é um portal que contém vários conjuntos de dados que podem ser explorados no navegador ou baixados para visualização.

Aqui estão alguns exemplos:

Conjuntos de dados para projetos de processamento de dados

Às vezes você só quer trabalhar com um grande conjunto de dados. O resultado final não importa tanto quanto o processo de ler e analisar os dados. Você pode usar ferramentas como o Spark ou o Hadoop para distribuir o processamento em vários nós. Coisas que você terá que levar em conta ao procurar um bom conjunto de dados:

  • Quanto mais limpo os dados, melhor — limpar um grande conjunto de dados pode consumir muito tempo.
  • Deve haver uma questão interessante que possa ser respondida com os dados.

Provedores de hospedagem na nuvem, como Amazon e Google, são bons lugares para encontrar grandes conjuntos de dados. Eles têm um incentivo para hospedar dados, porque eles podem fazer com que você analise esses dados usando sua infraestrutura (e, portanto, pague-os).

5. Conjuntos de dados públicos da AWS

A Amazon disponibiliza grandes conjuntos de dados em sua plataforma Amazon Web Services. Você pode fazer o download dos dados e trabalhar com eles em seu próprio computador ou analisar os dados na nuvem usando o EC2 e o Hadoop via EMR .

Você pode ler mais sobre como o programa funciona aqui e conferir os conjuntos de dados aqui (embora você precise de uma conta gratuita da AWS primeiro).

Aqui estão alguns exemplos:

6. Conjuntos de dados públicos do Google

O Google também possui um serviço de hospedagem na nuvem, chamado Google Cloud . Com o Google Cloud, você pode usar uma ferramenta chamada BigQuery para explorar grandes conjuntos de dados.

O Google lista todos os conjuntos de dados nesta página . Você precisará se inscrever em uma conta do Google Cloud para vê-la, mas os primeiros 1 TB de consultas que você faz por mês são gratuitos . Portanto, desde que você tenha cuidado, não precisará pagar nada.

Aqui estão alguns exemplos:

  • Nomes dos EUA — contém todos os nomes incluídos na Previdência Social nos EUA, de 1879 a 2015.
  • Atividade do Github — contém toda a atividade pública em mais de 2,8 milhões de repositórios públicos do Github.
  • Clima histórico — dados de 9000 estações meteorológicas NOAA de 1929 a 2016.

7. Wikipedia

A Wikipédia é uma enciclopédia gratuita, on-line e editada pela comunidade. Ela contém uma amplitude surpreendente de conhecimento, contendo páginas sobre tudo, desde as guerras Ottoman-Habsburg até Leonard Nimoy. Como parte do compromisso da Wikipédia com o avanço do conhecimento, eles oferecem todo o seu conteúdo gratuitamente, e regularmente geram despejos de todos os artigos no site. Além disso, a Wikipedia oferece histórico de edições e dados de atividades, para que você possa acompanhar como uma página em um tópico evolui com o tempo e quem contribui para isso.

Métodos e um guia prático para fazer o download dos dados estão disponíveis aqui .

Aqui estão alguns exemplos:

Conjuntos de dados para projetos de Machine Learning

Quando você está trabalhando em um projeto de Machine Learning, é possível prever uma coluna usando informações de outras colunas de um conjunto de dados. Para poder fazer isso, precisamos garantir que:

  • O conjunto de dados não seja muito confuso — se for, gastaremos todo o nosso tempo limpando os dados.
  • Há uma coluna de destino interessante para fazer previsões.
  • As outras variáveis ​​que possuem algum poder explicativo para a coluna de destino.

Existem alguns repositórios on-line de conjuntos de dados com curadoria específica para Machine Learning. Esses conjuntos de dados são normalmente limpos de antemão e permitem testar algoritmos muito rapidamente. São eles:

8. Kaggle

Kaggle é uma comunidade de ciência de dados que hospeda competições de Machine Learning. Há uma variedade de conjuntos de dados interessantes com contribuição externa no site. Kaggle tem competições ao vivo e históricas. Você pode fazer o download de dados de qualquer uma delas, mas você precisa se inscrever no Kaggle e aceitar os termos de serviço da competição.

Você pode baixar dados do Kaggle inserindo uma competição . Cada competição tem seu próprio conjunto de dados associado. Há também conjuntos de dados fornecidos por usuários disponíveis aqui , embora possam ser menos limpos do que os conjuntos de dados usados ​​em competições.

Aqui estão alguns exemplos:

  • Ordem de Fotografia por Satélite — um conjunto de fotos de satélite da Terra — o objetivo é prever quais fotos foram tiradas mais cedo do que outras.
  • Falhas no Processo de Fabricação — uma coleção de variáveis ​​que foram medidas durante o processo de fabricação. O objetivo é prever falhas na fabricação.
  • Perguntas de múltipla escolha — um conjunto de dados de perguntas de múltipla escolha e as respostas corretas correspondentes. O objetivo é prever a resposta para qualquer pergunta.

9. Repositório de Machine Learning da UCI

A UCI Machine Learning Repository é uma das fontes mais antigas de conjuntos de dados na web. Embora os conjuntos de dados sejam de contribuição do usuário e, portanto, possuam vários níveis de documentação e limpeza, a grande maioria está limpa e pronta para o Machine Learning ser aplicado. A UCI é uma ótima primeira parada ao procurar por conjuntos de dados interessantes.

Você pode baixar dados diretamente do repositório UCI Machine Learning, sem registro. Esses conjuntos de dados tendem a ser relativamente pequenos e não apresentam muitas nuances, mas são ótimos para Machine Learning.

Aqui estão alguns exemplos:

10. Quandl

O Quandl é um repositório de dados econômicos e financeiros. Algumas dessas informações são gratuitas, mas muitos conjuntos de dados exigem compra. O Quandl é útil para construir modelos para prever indicadores econômicos ou preços de ações. Devido à grande quantidade de dados disponíveis , é possível construir um modelo complexo que usa muitos conjuntos de dados para prever valores em outro.

Aqui estão alguns exemplos:

Conjuntos de dados para projetos de limpeza de dados

Às vezes, pode ser muito satisfatório pegar um conjunto de dados distribuído em vários arquivos, limpá-lo, condensar tudo em um único arquivo e fazer algumas análises. Em projetos de limpeza de dados, pode levar horas de pesquisa para descobrir o que cada coluna no conjunto de dados significa. Pode acontecer que o conjunto de dados que você está analisando não seja realmente adequado para o que você está tentando fazer, e será necessário começar de novo.

Isso pode ser frustrante, mas é uma parte comum de todo trabalho de ciência de dados e requer prática.

Esses tipos de conjuntos de dados são normalmente encontrados em sites que coletam e agregam conjuntos de dados. Esses agregadores tendem a ter conjuntos de dados de várias origens, sem muita curadoria. Neste caso, isso é uma coisa boa — curadoria demais nos dá conjuntos de dados excessivamente limpos que são difíceis de fazer uma limpeza extensiva.

11. data.world

O Data.world é um site de coleta de dados orientado pelo usuário (entre outras coisas) onde você pode procurar, copiar, analisar e fazer o download de conjuntos de dados. Você também pode enviar seus próprios dados para data.world e usá-los para colaborar com outras pessoas.

O site inclui algumas ferramentas importantes que facilitam o trabalho com dados do navegador. Você pode escrever consultas SQL na interface do site para explorar dados e ingressar em vários conjuntos de dados. Eles também têm SDKs para R e Python que facilitam a aquisição e o trabalho com dados em sua ferramenta de escolha.

Todos os dados estão acessíveis no site principal , mas você precisará criar uma conta, fazer login e pesquisar os dados desejados.

Aqui estão alguns exemplos:

12. Data.gov

Data.gov é um agregador de conjuntos de dados públicos de várias agências do governo dos EUA, como parte de um esforço mais amplo em direção a um governo mais aberto. Os dados podem variar de orçamentos governamentais a resultados de desempenho escolar. Muitos dos dados requerem pesquisas adicionais e, às vezes, pode ser difícil descobrir qual conjunto de dados é a versão “correta”. Qualquer pessoa pode fazer o download dos dados, embora alguns conjuntos de dados peçam para você passar por etapas adicionais, como concordar com os contratos de licenciamento antes de fazer o download.

Você pode navegar pelos conjuntos de dados no Data.gov diretamente , sem se registrar. Você pode navegar por área de tópicos ou procurar por um conjunto de dados específico.

Aqui estão alguns exemplos:

13. Banco Mundial

O Banco Mundial é uma organização global de desenvolvimento que oferece empréstimos e consultoria para países em desenvolvimento. O Banco Mundial financia regularmente programas em países em desenvolvimento, depois reúne dados para monitorar o sucesso desses programas.

Você pode navegar pelos conjuntos de dados do banco mundial diretamente , sem se registrar. Os conjuntos de dados têm muitos valores ausentes (o que é ótimo para a prática de limpeza) e, às vezes, leva vários cliques para realmente chegar aos dados.

Aqui estão alguns exemplos:

14. / r / conjuntos de dados

O Reddit, um popular site de discussão da comunidade, tem uma seção dedicada ao compartilhamento de conjuntos de dados interessantes. É chamado de conjuntos de dados subreddit ou / r / datasets. O escopo e a qualidade desses conjuntos de dados variam muito, pois são todos enviados pelo usuário, mas geralmente são muito interessantes e diferenciados.

Você pode navegar na subreddit aqui sem uma conta. Você também pode ver os conjuntos de dados mais altamente votados de todos os tempos aqui .

Aqui estão alguns exemplos:

15. Torrents Acadêmicos

O Torrents Acadêmico é um agregador de dados voltado para o compartilhamento de conjuntos de dados de artigos científicos. Ele tem todos os tipos de conjuntos de dados interessantes (e muitas vezes massivos), embora às vezes possa ser difícil obter contexto em um determinado conjunto de dados sem ler o artigo original e / ou ter alguma experiência nos domínios relevantes da ciência.

Você pode navegar pelos conjuntos de dados diretamente no site . Como é um site de torrent, todos os conjuntos de dados podem ser baixados imediatamente, mas você precisará de um client Utorrent.

Aqui estão alguns exemplos:

Bônus: dados de streaming

Quando você está construindo um projeto de ciência de dados, é muito comum baixar um conjunto de dados e depois processá-lo.

No entanto, como os serviços on-line geram mais e mais dados, uma quantidade crescente está disponível em tempo real e não está disponível no formato de conjunto de dados para download. Alguns exemplos disso incluem dados sobre tweets do Twitter e dados sobre preços de ações. Não há muitas boas fontes para adquirir esse tipo de dados em formato para download, e um arquivo para download estaria rapidamente desatualizado de qualquer maneira. Em vez disso, esses dados geralmente estão disponíveis em tempo real como dados de streaming, por meio de uma API.

Aqui estão algumas boas fontes de dados de streaming, caso você queira tentar sua sorte em um projeto de dados de fluxo contínuo.

16. Twitter

O Twitter tem uma boa API de streaming e torna relativamente simples filtrar e transmitir tweets. Você pode começar aqui . Existem muitas opções aqui — você pode descobrir quais estados são os mais felizes ou quais países usam a linguagem mais complexa.

17. Github

O GitHub tem uma API que permite acessar a atividade e o código do repositório. Você pode começar com a API aqui . As opções são infinitas — você pode criar um sistema para avaliar automaticamente a qualidade do código ou descobrir como o código evolui ao longo do tempo em grandes projetos.

18. Quantopian

O Quantopian é um site onde você pode desenvolver, testar e otimizar algoritmos de negociação de ações. Para ajudar você a fazer isso, o site oferece acesso a dados de preços de ações minuto a minuto gratuitos, que você pode usar para criar um algoritmo de previsão de preços de ações.

19. Wunderground

O Wunderground tem uma API para previsões do tempo com até 500 chamadas de API por dia. Você poderia usar essas chamadas para criar um conjunto de dados meteorológicos históricos e usá-las para fazer previsões sobre o tempo amanhã.

Bônus 2: dados.gov.br

No Portal Brasileiro de Dados Abertos, site disponibilizado pelo governo federal que permite encontrar e utilizar os dados e informações públicas, é possível realizar pesquisas utilizando Etiquetas (filtros) e formatos.

A razão para o fomento da prática está na transparência da gestão pública, contribuindo para uma participação mais efetiva da sociedade nos investimentos e gastos do dinheiro público.

Infelizmente, nem todas as organizações distribuem as informações conforme as diretrizes dos dados abertos — ainda há muitos arquivos em PDF.

Porém, o Ministério da Transparência e Controladoria-Geral da União disponibilizou a API de Dados por meio do Portal da Transparência.

As API’s (Application Programming Interface) são como uma espécie de torneira em uma caixa d’água. A água são o dados contidos na plataforma e o tamanho da abertura da torneira é que define aos quanto dela nós temos acesso. A API do Portal da Transparência não é apenas ampla em termos de fluxo de dados, os quais datam desde 2013 para alguns tópicos até os dias de hoje, como acessível e repleta de recursos interessantes.

A plataforma possui diversas formas de visualização de dados tais como mapas por localidade e gráficos, os mesmos possuem recursos de interatividade que reduzem a poluição visual e expandem a experiência do usuário. Além disso, o portal possui integração com mídias sociais e outras funções de compartilhamento e, inclusive, disponibiliza o código de incorporação dos gráficos em outras ferramentas. Também é possível ter acesso a tabela com os dados ordenados e ampliação do gráfico no display.

Próximos passos

Neste nosso primeiro post, cobrimos bons lugares para encontrar conjuntos de dados para qualquer tipo de projeto de ciência de dados. Esperamos que você encontre algo interessante em que você queira ir a fundo.

No R-Ladies, promovemos cursos de R básico, intermediário e avançado, onde isso pode ajudá-la(o) a começar a construir um portfólio de ciência de dados para demonstrar suas habilidades para os empregadores e conseguir um emprego no mundo dos dados. Se você tem interesse em participar desses cursos, acompanhe nossas redes que iremos divulgar em breve as datas.

--

--

Layla Comparin
rladiesbh

Engenheira de Dados por profissão, confeiteira e dançarina por amor ♥️