Photo by Siora Photography on Unsplash

Minha trilha de estudos para Data Science

Cursos, podcasts, canais do YouTube & tudo mais que usei na missão do primeiro emprego na área.

Letícia Gerola
Published in
7 min readJul 30, 2020

--

Foram seis meses de estudo MUITO intensos, e só por isso que foram seis meses :) Trancada em casa sem emprego, sem filhos e sem obrigações — só me restava estudar. A live completa sobre esse papo você pode conferir no canal do Mario Filho. Depois de muitas mensagens pedindo indicações de cursos, resolvi organizar aqui minhas fontes de estudo pra você usar e abusar delas também! Duas informações importantes sobre essa trilha: só tem cursos gratuitos (eu estava desempregada, não dava pra arriscar os pagos! Mas tenho certeza que há cursos pagos ótimos), tem muito curso em inglês (excludente, eu sei! Infelizmente os materiais em pt estão surgindo ainda… Aconselho muito quem ainda não domina o inglês, focar em resolver essa barreira da língua se possível).

Fase 1: Construindo as bases

Recebi bons conselhos quando estava começando (um abraço, Pedro Pazzini!), entre eles: construir um portfólio pra registrar meu aprendizado; fundamentar bem os conceitos básicos de programação & estatística; dar uma atenção pra área de negócios/storytelling. Foi assim que dividi minhas frentes de estudo no início, vou te apresentar elas:

Frente Python

Recebi o conselho de estudar a linguagem independente da parte de análise de dados pra ter um conhecimento mais completo de como ela funciona. Achei uma boa ideia, especialmente pra mim, que tinha zero contato com programação — e segui. Hoje, sugiro isso pra todo mundo: a parte de Python aplicada a dados é basicamente o uso de bibliotecas, ou seja, muito mais fácil do que entender todas as partes de desenvolvimento do Python em si. No entanto, se você estudar essas partes, fica muito mais fácil depois manipular as libs pra fazer análises e eventualmente resolver problemas que essas bilbiotecas não dão conta.

  • Canal Curso em Vídeo: o Guanabara é a pessoa mais didática que ja vi! Ele tem três playlists explicando Python (mundo 1, 2 e 3) e mais de 100 exercicios resolvidos pra voce treinar. É bem longo, mas se voce fizer x por dia já vai estar treinando pra caramba e construindo programinhas legais pra já ir jogando no seu github (criar um caixa eletrônico, um programa de sorteios, etc). Quem já programa vai achar um pouco lento, é ideal realmente pra quem nunca programou! Recomendo fazer o de SQL dele também, é curtinho e super bom.
  • Python for Data Science: esse eu fiz mais pra pegar o certificado mesmo, ele é da IBM, referência no mercado, e dá pra colocar na parte de licenças e certificados no LinkedIn. É bem curtinho e bem direto, uma ótima intro pra Python para análise de dados! É em inglês, sorry.
  • Python para Análise de Dados: a Data Science Academy tem 4 cursos gratuitos com certificado, esse aqui é o melhor deles! É longo, mas muito bem explicadinho (até demais, achei um pouco lento) mas é extremamentre bem feito, eles disponibilizam todos os jupyter notebooks pra download pra você ir executando as células e vira um ótimo material de consulta pro futuro. Depois de estudar as bases do Python e fazer a intro da IBM, é perfeito pra adentrar nas análises exploratórias de bases de dados.

Frente estatística

Pra mim, essa foi a parte mais tensa — eu não via matemática desde os meus 15 anos, lá no colégio. Um erro que cometi foi que estudei meio ‘no escuro’, só sabendo que precisava entender estatística, mas sem ter noção de onde, exatamente, eu ia aplicar. Hoje, lidando com algoritmos de Machine Learning, vejo como estudar esses conceitos me auxiliam a entender o que acontece ali e avaliar sua performance — é, realmente, muito importante. Fiz dois cursos da Udacity MUITO bons: vão de conceitos ultra básicos como media/mediana até f-score, z-score e regressões, eles conseguem explicar estatistica até pra minha avó. São em inglês, infelizmente não achei nenhum em pt.

Frente Storytelling/Negócios/Soft skills

Esse texto do Carlos Melo explica um pouco sobre como criar um portfolio pode ajudar a chamar a atençao de recrutadores . Como eu não tinha graduação na área nem empregos no meu CV que me ligassem aos dados, fiquei nervosa sobre como ‘provar’ que eu podia ser contratada como júnior — fazer portfólio ajudou bastante nisso, boa parte das entrevistas que consegui vieram por lá. Se você ver meus primeiros posts, eram bem simples: alguns códigos em Python que consegui fazer com base no canal do Guanabara que comentei, resumos de livros de storytelling, bem simplão mesmo.

É bom pra voce ver como seu conhecimento foi aumentando (ajuda na ansiedade!) e também pra fixar os conteúdos que você está aprendendo. Da pra fazer no medium, no wordpress, ou mesmo direto nos notebooks do jupyter ou Google Colab e salvar no Github. Cada um se indentifica com uma forma, a dica é encontrar a que melhor funciona pra você e que você consiga manter uma constância. E faça um favor pra você mesmo e compre o livro Storytelling com Dados, da Cole Nussbaumer Knaflic, lá tem tudo que você precisa saber sobre storytelling e organização visual da informação!

Fase 2: Avançando em Machine Learning

Depois de construir as bases em Python e estatística, incluí na minha rotina de estudos fazer projetos de Machine Learning com datasets do Kaggle. Alguns saíram super tortos (só posto os que dão certo rs), outros saíram melhor. É ótimo pra você colocar a mão na massa e realmente aprender tudo que esses cursos ensinam. O Kaggle tem muitos datasets legais, alguns pra iniciantes, que te ajudam a começar a fazer um pouco de Machine Learning, que é o proximo passo depois de plotar gráficos e saber analisar bem seus dados. Tem varios tutoriais no YouTube sobre o dataset do Titanic ou o dataset Iris (classificar flores) que são problemas bem clássicos. Assim que voce se sentir confortável com o pandas e as bibliotecas do Python, comece a brincar com esses datasets e criar seus próprios projetinhos!

  • Introdução ao Machine Learning: esse curso da Udacity é muito bom, explica os principais algoritmos de Machine Learning e quando usar cada um! está em Python 2, então aconselho não se preoucupar com os códigos e focar nas explicações e exercicíos de fixação. Uma parte incrível é que eles utilizam a documentação do Scikit Learn, então você vai direto na fonte oficial! Também em inglês, sorry.
  • Canais do YouTube com tutoriais de ML: Mario Filho resolve o problema do Titanic em ótimo passo a passo. O Diogo Cortis, professor da PUC, também está com uma série sobre Inteligência Artifical super didática em que ele resolve alguns projetinhos também. Vale conferir também o canal do Carlos Melo, que tem ótimas introduções e tutoriais.

Pra ficar por dentro

Uma coisa que apendi no jornalismo e que levo pra vida é que, se eu quero saber bem sobre algo, preciso estar no olho do furacão daquele universo. Aqui vai uma lista de Instagrams, blogs, podcasts, canais do YouTube pra você seguir/se inscrever e ficar sabendo do que tá rolando na área, tendências, cursos gratuitos que abrem… Tive boas indicações de estudos nesses seguimentos! Já adianto aqui minhas dicas pessoais: vale a pena estudar Cloud, Virtualização (alô, Docker!) e um pouco de LGPD. Alguns cursinhos que fiz sobre esses temas:

  • Docker for Developers: um badge gratuito da IBM, curtinho e direto pra você aprender a subir seus conteiners e imagens no Dockerhub. Tem ótimos tutoriais no YouTube também.
  • LGPD: a Escola Nacional De Administração Pública (ENAP) tem um curso online gratuito de 10 horas sobre o tema (com certificado). É um curso direto, objetivo e que traz, a cada aula, um caso gerador para discussão (tem babado do Uber, Grindr e muito mais). Resumi o que aprendi com esse curso nesse post.
  • Cloud: me inscrevi embolsas gratuitas que rolaram pela Udacity para o curso de fundamentos tanto da AWS (Amazon) quanto do Azure (Microsoft), mas, qualquer pessoa pode fazer um free trial nessas plataformas pra dar uma fuçada, entender como funciona… Tem tutoriais no YouTube muito bons explicando como utilizar! Aqui tem um de Azure, um de AWS e um de Google Cloud.

Pra finalizar, aqui vai uma lista de outros canais, Instagrams, publicações e podcasts que eu sigo & recomendo:

  • Canal Programação Dinâmica: tem uma serie ‘dicas de pandas’ com vídeos curtinhos geniais pra aprender alguns truques super úteis, eles são bem didáticos.
  • Canal Mario Filho: ele é o brasileiro mais alto no ranking do Kaggle de Machine Learning e não fez faculdade, faz vídeos muito bons sobre o tema e a area em geral. São mais avançados, a série sobre ML com Titanic foi meu primeiro contato com ML e achei super bom.
  • Canal Peixe Babel: duas mineiras cheias de tutoriais sobre diferentes temas relacionados a dados, vale a pena.
  • Medium ‘Towards Data Science’: é em inglês, mas é o melhor hub de conteudo de data science que já encontrei. São textos muito muito bons, cheios de tutoriais e novidades da área.
  • Blog Sigmoidal: é do Carlos Melo, outro cientista de dados sem formação na área. Ele fala muito sobre soft skills e tem um instagram bem legal onde tira dúvidas da galera.
  • Canal do Diogo Cortis: super antenado na área, o professor discute todas as polêmicas do universo de dados — além de ter uma série de vídeos sobre IA muito bem feitos e fáceis de acompanhar.
  • Podcasts: Data Hackers (medium deles tambem!), Hispters.tech (não é exclusivo sobre dados, mas quando é, é muito bom!), PodProgramar, Dados e Saúde, Crazy for Data… Tem tudo no Spotfy e outras plataformas de streaming.
  • Instagrams: ESPECIAL PRA MULHERADA: eu tinha muita dificuldade de me ver como programadora ou Cientista de Dados diante de tantos exemplos masculinos… Encontrar mulheres e coletivos nesse meio me ajudou a ter mais confiança e acreditar que aquela área também era pra mim! Cerque-se de gente que te inspira: @reprogramabr , @programaria , @womakersgram & seguir a hashtag #datascience.

Espero que essa lista seja útil pra ti! Se você tiver boas experiências de estudo pra indicar, comenta aqui embaixo! Vou adorar saber e, quem sabe, pode ser útil pra mais alguém :)

--

--

Letícia Gerola
Joguei os Dados

Cientista de dados e jornalista. Autora do blog de Data Science ‘Joguei os Dados’.