Os melhores links da semana #2

Os melhores links da semana de 18 a 24 de Março de 2019!

Olá pessoal! Sexta-feira chegou e mais uma edição dos melhores links da semana :-).

Pronto para ser entrevistado?

É inevitável que uma pessoa que queira seguir carreira na área de Ciência de Dados irá, uma hora ou outra, participar de uma entrevista (ou conduzir uma, se você está mais para um empreendedor ;-). Se ainda não teve essa oportunidade, não desanime! Pelo contrário, veja como oportunidade para se preparar adequadamente para quando o momento chegar. Enquanto isso, recomendo o podcast Ace Data Science Interviews que trata justamente desse assunto! O canal do YouTube do Springboard está sempre entrevistando profissionais da área e dessa vez entrevistaram o Michael Beaumier, Data Scientist na Google, que traz umas dicas bem interessantes sobre entrevistas de emprego. E também tem o Arnaldo Gualberto que compartilhou um pouquinho de sua história.

Durante a carreira de Data Science, em alguns momentos você pode se ver como apenas mais uma maçã na cesta, afinal, existem muitas pessoas interessadas nesse segmento de mercado e o número de pessoas participando do Data Hackers no Slack é sinal disso!!! (Não participa ainda? iii.. Está perdendo uma oportunidade e tanto, ein? Corre e clica aqui ;-) Mas não se preocupe, você não está sozinho e inclusive alguém já perguntou isso no Quora! Checa aqui a resposta de “Como posso me destacar quando todo mundo também está estudando Machine Learning e Data Science em 2019?”.

“Talk is cheap, show me the code”

A famosa frase do Linus Torvalds vez ou outra é utilizada como um feitiço de invocação. Em análise de dados e aprendizado de máquina, não podemos fugir dos códigos. Já ouviu falar do Deep Learning Summer School? Boa parte do material da edição de 2018 você encontra no repositório deles do GitHub aqui. Além disso, aqui você encontra os 5 “melhores” repositórios do GitHub e discussões no Reddit envolvendo Data Science para o começo de 2019, assim como os 25 melhores repositórios do GitHub para Data Science e Machine Learning no ano de 2018.

Psicólogo de dados

Photo by Isai Ramos on Unsplash

Pensando em analisar o metrô de São Paulo, o Douglas Navarro coletou dados das linhas por meses e meses, mas quem acabou analisando esses dados, que ele disponibilizou para o público, foi o Paulo Haddad (confira aqui). E as análises que achei interessantes dessa semana não param por aqui! O Nathan Yau conseguiu identificar algumas mudanças em como casais se conhecem e você pode conferir clicando aqui e aqui.

Falei ta dito: Feature selection e missing values

Como avisei na semana passada, no próximo texto eu traria alguns links sobre feature selection e como tratar de missing values. Você já deve ter visto visualizações de dados em formato de rede/grafo, certo? Pois tem gente utilizando redes para fazer feature selection!

Random forest talvez seja um dos algoritmos mais conhecidos hoje em dia. O Eryk Lewinson fala aqui sobre como explicar a importância de uma feature através do Random Forest. No geral, quem estiver atrás de dicas para fazer feature selection, o Quora está aqui para ajudar :P

Sobre missing values, hoje não estamos dando! Estamos distribuindo!!! Tem link para lidar com missing data em R, em Python, tem material sobre imputação de dados faltantes usando maximum likelihood e multiple imputation e para fechar com chave de ouro: Sete meios de criar dados: métodos comuns para imputação de valores faltantes.

Como vocês sabem, essa série é uma versão resumida e mais contextualizada da série Best Links of the Week do meu blog pessoal. Caso queiram uma versão mais crua, mas mais extensa e completa, é só checar lá! Tem links para detecção de outlier, interpretando coeficientes de regressão linear e muito mais.

Espero que tenham gostado, e até mais [links]!