Competir em Data Science? — Os melhores links da semana #4

Os melhores links da semana de 1 a 7 de Abril de 2019!

Marcel Ribeiro Dantas
Data Hackers
3 min readApr 12, 2019

--

Os melhores links da semana! Entre eles, algo de muito valor! ;-)

Olá p-essoal! Sexta-feira chegou e mais uma edição dos melhores links da semana :-).

Competitivo? Eu? Não…

Você já deve ter ouvido falar das competições de ciências de dados que ocorrem internet a fora. A plataforma de competições mais famosa talvez seja o Kaggle (rola até prêmio em dinheiro!!! $$$). O Owen Zhang da DataRobot preparou uma apresentação bem interessante com o título “Winning Data Science Competitions” (sim, ele já ganhou competições). Uma outra apresentação nessa linha que ficou bem legal foi a do Darius Barušauskas, co-fundador da oxipit.ai. E se você ficou sabendo do “Shiny Contest” que teve no começo do ano, os resultados saíram!

Ah, mas eu ainda estou verde Marcel. Antes de ir competir você preciso ter conhecimentos mais sólidos. Como faço? Então cheque aqui os melhores bootcamps de Ciência de Dados para 2019!

P-essoal ou PPPPEEEESSSOOOAAALLLL?

Alguns de vocês devem ter notado que eu começo essa série com “P-essoal”. Sim, é uma alusão ao p-valor. Embora eu ache que vale a pena fazer o trocadilho, é importante lembrar que o p-valor não é uma bala de prata para validar o seu experimento ou a sua análise. Ele é útil, com certeza, mas quando utilizado corretamente. Em alguns casos, o que deveríamos estar procurando, por exemplo, é o tamanho do efeito (effect size). Afinal, eu posso mostrar que é muito difícil que os resultados dessa nova droga estejam ocorrendo ao caso, mas se seu efeito é quase imperceptível, de que vale aprovar essa droga para ir ao mercado?! É por isso que muitos dizem que p-valor sozinho não é o bastante! Vem comigo então, entender o que é o tamanho do efeito e por que ele é importante!

Amados dados e como analisá-los

Para os amantes de futebol, vocês vão encontrar dados disponíveis para análises aqui e aqui. E se você está pensando em obter dados através de web scrapping, tem ensinando aqui como fazer isso em R em sites de receitas!

Você já deve ter ouvido falar do Random Forest, né? É um algoritmo que está na boca do povo. Mas como é esperado de algo extremamente popular, tem muita gente utilizando-o de forma inadequada. Aprenda aqui como não utilizá-lo!

Feature selection? Engineering? Xácomigo!

Random Forest já não tem como ser uma palavrinha nova! Falamos sobre ele na seção passada. Nesse link você vai aprender sobre a importância de features através de Random Forest.

Aqui você encontra um resumo sobre as principais estratégias de feature selection. Tem essa apresentação massa do HJ van Veen da Nubank Brasil sobre feature engineering e para os fãs do Tidyverse (quem não gosta de Tidyverse nem é gente #prontofalei), aprenda aqui a fazer feature engineering utilizando o Tidyverse. E se você já leu um pouco sobre essa área de análise de dados, com certeza já deve ter passado o olho sobre seleção automática de features. Muita gente acha que isso vai revolucionar a área!

E a cereja do bolo para quem curte Generative Adversarial Networks (GANs), encontre aqui os principais artigos que todo entusiasta de machine learning deveria conhecer!

Oportunidades!

  1. Software Engineer — Apple Media Products Data Engineering.
  2. Cientista de Dados na hotmart.
  3. Consultor Power BI / Analysis Services.
  4. Business Analyst (Analista de Negócios) na Contabilizei.
  5. Engenheiro de Dados no Guia Bolso.
  6. Cientista de Dados no Guia Bolso.
  7. Senior Data Scientist na Contabilizei.
  8. Analista Sr — Mídias Sociais.
  9. Gerente de BI na OLX.
  10. Analista SQL Junior na RADAR Profissional.
  11. Engenheiro(a) de Dados na VAGAS.com.br.
  12. Legal Data Engineer/Lawyer na Digesto.
  13. Analista DevOps/SRE na Data Sprints.
  14. Cientista de Dados na Hoobox.
  15. Several opportunities at Wavy.

Como vocês sabem, essa série é uma versão resumida e mais contextualizada da série Best Links of the Week do meu blog pessoal. Caso queiram uma versão mais crua, mas mais extensa e completa, é só checar lá! Tem links fora da temática de data science também!

Espero que tenham gostado, e até mais [links]!

--

--

Marcel Ribeiro Dantas
Data Hackers

Early Stage Researcher at Institut Curie and PhD Student at Sorbonne Université. Data Scientist, Software Freedom Activist and Bioinformagician!