Os 9 melhores sites para encontrar datasets para projetos de Data Science

Leonardo Caldeira
7 min readOct 5, 2019

--

Locais para encontrar conjuntos de dados interessantes e gratuitos

Se você é iniciante e ainda não experimentou projetos de ciência de dados, esse é o seu ponto de partida.

Por meio dos sites abaixo, você pode facilmente aprimorar suas habilidades e desenvolver seu próprio estilo de trabalho, que é altamente importante hoje. E então, sem dúvida, você pode criar com confiança um excelente currículo de ciência / analista de dados, conseguir um emprego do seu sonho e eventualmente se sentir como um rei ou uma rainha da ciência de dados. Parece ótimo, não é? Então, por que esperar mais?

Sem mais delongas, vamos começar!

# 1 Kaggle

Talvez o mais conhecido lugar para datasets do mundo da Ciência de Dados e sem dúvida, um ótimo lugar para encontrar conjuntos de dados gratuitos. No geral, o Kaggle é o site multifuncional ou é melhor chamá-lo de ‘comunidade de ciência de dados’ bem conhecida, que oferece não apenas uma variedade de conjuntos de dados interessantes compartilhados externamente, mas também materiais para adquirir novos conhecimentos e praticar habilidades.

Ao permitir que os usuários compartilhem código com outras pessoas, o Kaggle oferece as melhores práticas de aprendizado no espaço de dados. Combinação incrível, não é?

A pesquisa aqui é tão simples. Basta abrir a página inicial e procurar a caixa de pesquisa na parte superior da página. Em seguida, use a tag “in: datasets”. Por exemplo, para obter dados sobre medicamentos, digite “medicamento em: conjuntos de dados” na caixa de pesquisa.

Outra coisa que você precisa saber é que o Kaggle também organiza competições nas quais você pode ganhar dinheiro real se tiver um modelo de ranking superior. Você pode fazer o download dos dados de qualquer um dos dois, mas precisa se inscrever no Kaggle e aceitar os termos de serviço da competição.

# 2 FiveThirthyEight

FiveThirthyEight é um dos melhores lugares que eu recomendaria. É uma combinação perfeita de armazenamento significativo de conjuntos de dados gratuitos e ótimos artigos informativos dedicados à Ciência de Dados.

Francamente falando, você pode simplesmente parar de ler meu post agora e usar apenas este site. Mas, na verdade, estou brincando porque cada lugar tem suas próprias características e possibilidades (quem sabe).

Portanto, o FiveThirthyEight é bom para muitas informações interessantes para os cientistas de dados e os materiais que desejam trabalhar. Eles usam dados concretos e análises estatísticas para contar histórias sobre política, esportes, assuntos sociais e muito mais.

O que você precisa saber sobre o FiveThirthyEight é que esse serviço disponibiliza os conjuntos de dados usados ​​em seus artigos on-line no Github e em seu próprio portal de dados. Os dados variam de informações sobre quais estados têm os piores fatores ao valor econômico de diferentes cursos universitários. Eles abrem muitos dados para o público, o que significa que você pode fazer o download e jogar com os dados de origem!

# 3 BuzzFeed

Você pode se surpreender por que este site está aqui e, à primeira vista, não tem relação com a ciência de dados. Bem, sim, a BuzzFeed é uma empresa de mídia digital multiplataforma que fornece conteúdo de notícias e entretenimento. Mas, a verdade é que este é um serviço multifuncional que mantém todo o espectro de opções interessantes e úteis e, como você pode imaginar, conjuntos de dados gratuitos não são uma exceção.

Pessoalmente, para mim, o BuzzFeed é uma excelente fonte de pesquisa de conjuntos de dados públicos para Machine Learning e Data Science sobre diferentes tópicos — das principais tendências de fitness e receitas de cerveja às taxas de envenenamento por pesticidas — estão disponíveis online. Todas essas coisas que você pode encontrar no Github.

A propósito, o BuzzFeed também fornece uma grande parte de outro material para aspirantes a cientistas de dados, como análises, bibliotecas, ferramentas, guias e muito mais. Em outras palavras, você pode usá-lo para quase todas as ocasiões.

# 4 data.gov

Outro site rápido e simples — o Data.gov é um grande agregador de conjuntos de dados e a casa dos dados abertos do governo dos EUA. Existem 14 tópicos diferentes (desde agricultura, segurança pública até governo local), então você tem grandes chances de selecionar um conjunto de dados que será realmente interessante para você. Além disso, este é um ótimo site para jornalismo baseado em dados e narrativa.

A pesquisa aqui é simples, você pode navegar diretamente nos conjuntos de dados, sem se registrar. Você pode aplicar filtros extras, como categoria de tópico, local, tags, formato de arquivo, organizações e muito mais, e tornar sua pesquisa mais eficaz.

# 5 Brasil.io

No Brasil.io você consegue desde conjunto de dados com cursos e notas do PROUNI até os dados de Socios de Empresas Brasileiras. É uma ótima fonte de dados, com tudo em português e CSV, o que facilita muito a nossa vida!

Aproveite por tempo limitado, pois o objetivo deles é cobrar por isso depois, pela centralização e facilidade de obtenção dos dados.

# 6 dados.gov.br

Falamos antes do data.gov que é dos Estado Unidos então também devemos falar da iniciativa do nosso governo em liberar alguns de seus dados, não é?

Aqui você consegue encontrar dados do BNES, de vendas de carros pelas concessionárias, agências supervisionados pelo Banco Central (Bacen) e muito mais. Corre lá.

# 7 Reddit

Se você é um brasileiro e não conhece o Reddit, você está perdendo tempo de vida. Amigo, esse site tem tudo, passa até jogos on-line em tempo real se você procurar direitinho. Não que eu esteja indicando a pirataria, longe de mim ;)

Além disso, por serem um fórum extremamente conhecidos, eles centralizam muito poder de conhecimento em Ciência de Dados.

Alguns links que talvez o ajudem:

Informações sobre Ciência de Dados:
https://www.reddit.com/r/datasets/

Dados de Viagens do Uber: https://www.reddit.com/r/datasets/comments/5mumo4/uber_is_releasing_detailed_historical_transit/

# 8 Academic Torrents

O Torrents Acadêmicos não é uma plataforma poderosa, mas utilizada para os pesquisadores compartilharem dados. Segundo os criadores, este site é uma tentativa de disponibilizar conjuntos de dados e documentos acadêmicos via BitTorrent. E a verdade é que eles cumprem a meta em um nível significativamente alto.

Portanto, este é um agregador de dados focado principalmente no compartilhamento de conjuntos de dados de artigos científicos. Consiste em duas partes: um site onde os usuários podem procurar conjuntos de dados e um backbone BitTorrent que torna o compartilhamento de dados escalável e rápido. Ele possui todos os tipos de conjuntos de dados incomuns (e geralmente grandes), embora às vezes possa ser complicado obter contexto em um conjunto de dados específico sem ler o artigo original e / ou ter algum conhecimento nos domínios relevantes da ciência.

# 9 Wikipedia

Esse eu tenho certeza que não existe uma alva viva que não conheça. Se antes a sua pesquisa já era fácil, imagina agora podendo baixa TODOS os artigos escritos no site!

Estamos falando em milhões de artigos para te ajudar nas suas pesquisas e experimentos com Ciência de Dados.

Espero que se divirta com essa :D

Tornar-se um especialista em ciência de dados é um longo caminho. Não é algo que você possa aprender da noite para o dia. Não é algo que você pode aprender, mesmo em um mês! Mas você certamente pode acelerar esse processo fazendo um pouco mais todos os dias do que costuma fazer. Não tenha medo de ir um pouco mais longe e não tenha medo de praticar suas habilidades aqui e agora.

Basta usar esses sites nos quais confiar quando estiver trabalhando em projetos centrados em dados. Grande parte está disponível gratuitamente — através de um período de teste ou de acesso totalmente aberto. É a oportunidade mais fácil de ganhar experiência, então agora é a sua vez de ficar louco e fazer tudo certo.

Lembre-se sempre, a melhor maneira de aprender ciência de dados é aplicando ciência de dados!

Boa sorte!

Espero que tenham gostado deste post. Sinta-se livre para compartilhar suas idéias, pensamentos e sugestões.

Inspirado para aprender mais? Aprenda mais todos os dias me seguindo no Instagram.

--

--