Meu Plano de Estudo para Ciência de Dados

Gil Santanna
Daddy Data Scientist
10 min readJan 22, 2021

--

Cursos, artigos, podcasts, canais do Youtube e tudo que eu estou usando para conseguir o primeiro emprego nessa área.

O primeiro passo para dominar um novo conhecimento ou habilidade é planejar — sem isso, pode ser fácil se perder no caminho. Por este motivo, com base em muita dica de amigos da área, eu montei meu planejamento de 9 meses de estudo para entrar no mercado como Cientista de Dados. É o mesmo tempo de gravidez, ou seja, vamos fazer nascer um novo cientista de dados :)

! IMPORTANTE! Caso você não saiba inglês, eu recomendo fortemente que tente correr atrás para aprender pelo menos o instrumental (aprender a ler e a escrever). A maioria dos materiais estão em inglês, além do que as vagas de trabalho fora do Brasil pagam MUITO bem!

Note que este planejamento é baseado em uma rotina restrita por ter 2 crianças em casa, quem não tem filhos e consegue dedicar mais tempo de estudo pode acelerar as fases.

Eu vou dividir o aprendizado em fases da seguinte forma:

  • Fase 1 (2 meses): Construindo as Bases
  • Fase 2 (2 meses): Aumentando de Nível: Conhecimento Intermediário
  • Fase 3 (3–4 meses): Projetos da Vida Real — Construindo Portfolio
  • Fase 4 (2 meses): Buscar vagas enquanto mantém a prática

Fase 1 : The Construindo as Bases

Eu estou separando no mínimo 2–3h diárias para estudo nesta fase. Se você tem mais tempo disponível para estudar, ainda assim eu recomendo manter os 2 meses firme e forte. O mais importante é conseguir manter a constância!

No meu caso, eu acordo mais cedo do que todos na casa e tento garantir já umas 2h de estudo. Em alguns dias, consigo também tempo na parte da tarde para estudar, mas aí é lucro! Encontre sua melhor rotina para estudar. Durante esse período você vai estudar:

Python ou R

Olha, eu recomendo investir toda sua energia em Python, pois cerca de 80% das vagas de trabalho pedem conhecimento em Python. Você vai perceber também que o mesmo se aplica aos projetos que você vai implementar — tudo Python! Além disso, Python não serve só pra DS, então você não vai perder seu tempo caso no meio do caminho você perceba que quer focar em web development.

Importante: Mesmo NUNCA tendo estudado programação, não se intimide. Tem alguns cursos muito introdutórios e fofinhos que vou te passar. Você consegue :)

  • Canal Curso em Vídeo: É em português e é do Guanabara, seu professor oficial! Ele tem umas playlists introdutórias muito boas e vários exercícios para treino.
  • Python for Data Science: São 12h de vídeo (se você fizer 2h por dia, termina em 1 semana) MUITO bem estruturados. É em inglês.
  • Python for Data Science (IBM): É uma intro em Análise de Dados bem boa, mas em inglês também.
  • Python para Análise de Dados: A Data Science Academy tem 4 cursos gratuitos com certificado. O curso é meio longo, mas é bem explicadinho. Se você não tem experiência com programação, esse curso é seu.
  • Complete Python Bootcamp — From 0 to Hero: Esse é o meu xodó. É o curso que eu mais me identifiquei. Em inglês também.

Faça amizade com a matemática e a estatística

Tem uma galera que discute se precisa ou não desse conhecimento para ser cientista de dados. Pelo pouco que eu sei, você PRECISA sim, mas só o basicão (pelo menos no começo). Eu vou te explicar melhor esse ponto.

A gente pode dizer que a Ciência de Dados é dividida em dois grandes campos: pesquisar por um lado e colocar algoritmos de Machine Learning (ML) em produção do outro. Se depois você decidir que o que você realmente gosta é pesquisa e quer focar nisso, aí sim você vai precisar de bastante estatística e matemática (olha, bastante mesmo!). Mas se você está focada(o) na parte prática, as libraries vão te ajudar a lidar com a maioria dos casos. Vale notar que a maioria dos trabalhos pedem a parte prática.

Para ambos os casos, você vai precisar do básico de:

  • Estatística (com Python e NumPy)
  1. Estatística Descritiva
  2. Inferência Estatística
  3. Teste de Hipóteses
  4. Probabilidade
  • Matemática (com Python e NumPy)
  1. Álgebra Linear
  2. Cálculo Multivariado

Se liga nisso: Por experiência própria, eu recomendo que você estude Python primeiro antes de começar com matemática e estatística — deixa pra começar no segundo mês — pois o desafio é implementar essas bases matemáticas com Python. Não comece estudando só teorias e nem perca tempo em exercícios de estatística/matemática com resolução no Matlab/Excel/Octave, etc. Isso só vai fazer ficar chato demais e nada prático! Eu vou listar aqui cursos e programas que te ensinam os conceitos básicos com Python, afinal é isso que vamos usar daqui pra frente né? Eu acho que esse conselho é muito importante, pois senão dá vontade de desistir por ser chato e pouco eficiente.

Evoluiu nesses meses? Tá se sentindo plena(o) e poderosa(o)? Então está pronta(o) para dar um salto no seu aprendizado nos próximos meses.

Fase 2: Aumentando de Nível — Conhecimento Intermediário

Uma vez estando confortável e com uma boa base em programação e estatística, é hora de seguir em frente e aprender finalmente sobre as vantagens do Python na Ciência de Dados. Neste estágio vamos estar focados em:

Data science Python stack

Python tem as seguintes libraries que precisamos estudar, conhecer e praticar nessa fase:

  • Pandas: para trabalhar com dados tabulares e fazer análises profundas
  • Matplotlib e Seaborn: para visualização de dados

Pandas é A library para análise de dados. É de longe uma das ferramentas mais poderosas e importantes que você vai usar (vai ouvir falar MUITO dela). Pandas vai ajudar muito a manipular, limpar e organizar seus dados.

Modelos Básicos de Machine Learning

Ao final deste estágio você vamos cair pra dentro de Machine Learning! Estava esperando por isso todo esse tempo, né? Aqui você vai começar a aprender sobre diferentes algoritmos que podemos utilizar, quais problemas em particular podemos resolver e aplicar na vida real.

A library de Python que recomendo começar para experimentar Machine Learning é: scikit-learn. No entanto é uma boa idéia começar a procurar por tutoriais que explicam a implementação dos algoritmos do 0(pelo menos os mais simples) com Python, já que a library pode ser uma "Black Box" e talvez você não consiga entender o que está acontecendo por trás. Se você aprender a implementar com Python, você vai ter uma base muito mais sólida.

Se você implementar os algoritmos com Python (sem nenhuma biblioteca), você vai colocar em prática tudo que viu em estatística, matemática e na parte de Pandas.

Aqui vão algumas recomendações que você deve pelo menos conhecer nessa fase inicial:

  • Aprendizado supervisionado
    Regressão Linear Simples
    Regressão Linear Múltipla
    Regressão Logística
    K-nearest neighbors (KNN)
    Árvores de Decisão
    Random Forest
  • Aprendizado Não-Supervisionado
    K-means

Se liga nisso: Não invista mais que 3 meses nessa fase, porque senão você vai deixar de pegar projetos e vai perder o passo do seu plano de estudos. É bem normal ter váaarias deficiências nessa fase e achar que precisa de mais tempo, digo por experiência própria! O que eu sugiro é que você anote o que está com dificuldade e crie resumos depois. O importante é garantir o básico e seguir em frente.

  • Introdução ao Machine Learning: É um curso gratuito da Udacity. Muito bom, mas está em Python 2. Se liga mais na explicação que é suave. Aqui eles usam toda a documentação do Scikit Learn, então você vai direto na fonte oficial.
  • Machine Learning and Data Science Hands On: Esse é o curso que eu estou fazendo e mais me identifiquei. Ele possui um formato com alguns projetos para fazer ao longo do curso que vai te preparar para a próxima fase. Está em inglês.

Data Visualization

Aqui eu só indico que você tenha uma leitura constante do livro da minha colega de formação (também Matemática Aplicada) Cole Nussbaumer Knaflic, livro Storytelling com Dados. Tem tudo que você precisa saber sobre Visualização de Dados. Eu baixei para meu Kindle!

Se você conseguiu entender pelo menos um pouquinho do que é aprendizado supervisionado e não-supervisionado, você vai ter uma boa idéia do que vai encontrar bastante no futuro. Eu estou exatamente nessa fase, cada dia aprendo um pouquinho mais, sempre um pouco, sempre em frente!

Agora vamos partir mais pra prática no mundo real!

Fase 3: Projetos da Vida Real — Construindo Portfolio

Agora que sua base está sólida, é hora de colocar em prática todo esse conhecimento. Aposto que você vai querer mostrar seus trabalhos para todo mundo, pois isso é muito legal!

Os conselhos que vou te dar aqui, e que estão no meu planejamento, levam em consideração meus anos de experiência como empreendedor e na área de negócios.

Comece botando a cara: sua presença digital

  • Crie uma conta no Github e aprenda Git: Ser capaz de gerenciar diferentes versões do seu código é importante, você precisa ter controle versionado sobre eles. E participar da comunidade Github é extremamente necessário na sua jornada de cientista de dados/programador, é lá que você demonstra suas habilidades e muitos recrutadores pedem o link do seu Github. Tudo que você fizer no Google Colab, no Jupiter Notebook ou em qualquer outro local, você pode salvar no seu GitHub.
  • Crie um site, um blog ou qualquer outro lugar em que você pode escrever resumos sobre seus projetos. Com isso você pode consolidar o que você aprendeu, pois a gente precisa entender bem de um assunto para conseguir falar sobre ele; mostrar para o mundo (e recrutadores) o storytelling dos projetos que já fez; e ainda ajudar outras pessoas a começarem na carreira de Data Science. Não é maravilhoso demais?
  • Seja criativo! Pense em como um recrutador de uma empresa dos seus sonhos pode pensar. O que eles amariam ver? Em qual formato? Se jogue e não tenha medo de errar, nessa área não cabe orgulho :)

Escolha um projeto que você é apaixonado e crie um modelo de Machine Learning sobre isso

O objetivo final dessa fase é criar no mínimo UM projeto, um projeto que reflita sua paixão e de preferência, que seja DIFERENTE dos outros. Existem um monte de projetos na comunidade que você pode treinar, como predizer o número de casas em São Paulo, detecção de fake news e etc. São projetos ótimos para treinar, mas além de treinar você precisa DAQUELE projeto — vai até te fazer bem.

Eu sou apaixonado por saúde e meu projetão vai ser nessa área, certamente. Se você é apaixonada(o) por música, experimente pegar músicas e criar um DJ artificial. Se você é apaixonada(o) por esportes, tente predizer os resultados do próximo jogo. O que não falta é projeto!

Esse é o seu momento de aprender mais. Muita coisa deve dar errado, mas é aí que vamos aprender MUITO! O que está no meu planejamento e que eu aconselho é fazer um projeto de Machine Learning full-stack.

Ou seja:

  • Pegue o dado de algum lugar (scrapping, Open Data ou API);
  • Faça a análise de dados;
  • Limpe e transforme os dados;
  • Crie os modelos de Machine Learning;
  • Faça o deploy do melhor modelo para produção de forma que outras pessoas possam usar (falo de interface!)
  • Crie uma narrativa de visualização de dados em algum lugar para apresentar ao mundo.

Isso não significa que você vai fazer tudo isso nas suas vagas de trabalho, mas você vai entender todas as etapas que um projeto de ciência de dados precisa em uma empresa. Isso é delicinha no azeite!

Fase 4: Buscar vagas enquanto mantém a prática

Se você está estudando para concorrer a uma vaga de trabalho na área, leia essa parte. Eu venho conversando com MUITOS amigos cientistas de dados sobre como buscar trabalho, as maiores dificuldades e possíveis atalhos.

Como eu ainda não cheguei nessa fase, eu vou editar depois que conseguir.

Para ficar dentro do mundo de Ciência de Dados

Estamos em um momento ideal para planejamento de 2021 e esse ano ainda você pode ter uma nova profissão: Cientista de Dados \o/

E uma coisa muito importante em qualquer área que você entre é: estar completamente imerso nesse universo, beber de todas as fontes para isso se tornar natural. Eu tive e tenho ótimas indicações de estudos e compartilho com você alguns cursos que eu fiz sobre os temas de LGPD, Cloud e Virtualização:

  • LGPD: a Escola Nacional de Administração Pública (ENAP) tem um curso online sobre o tema. Ainda é gratuito e emite certificado! Você faz rapidinho e vai somar muito na sua carreira.
  • Docker for Developers: É um curso curtinho que faz parte de uma trilha de aprendizado da IBM, o Cognitive Class. Você ainda ganha um badge :)
  • Cloud: Tem tutoriais no YouTube muito bons explicando como utilizar! Aqui tem um de Azure, um de AWS e um de Google Cloud.

Instagram, blogs e podcasts

  • Canal do Ricardo Paiva: Canal do Youtube sobre BigData
  • Canal do Mario Filho: o cara é o brasileiro com o ranking mais alto no Kaggle. Ele não fez faculdade e os conteúdos deles sobre ML são bem avançados.
  • Blog Towards Data Science: É em inglês. Na minha opnião, é um dos blogs mais completos com tutoriais e últimas informações sobre DS.
  • Instagram: @meigarom.datascience , @dsacademybr , @portaldata . Tem muito mais, mas esses são os que eu mais gosto das publicações. Entra na hashtag #datascience e fuça!
  • Podcast: Pizza de Dados, Dados e Saúde, Crazy for Data, Data Hackers. Tem no Spotify :)

Tem lugar pra tanta gente em Data Science, mas tanta gente… Que esse post sirva de inspiração para você e que possamos ser colegas num futuro próximo ❤

Se você tiver mais indicações para estudos, comenta aqui que eu edito e incluo!

--

--