Calma lá com esse Deep Learning! — Os melhores links da semana #8

Os melhores links da semana de 29 de Abril a 5 de Maio de 2019!

Olá p-essoal! Sexta-feira chegou e mais uma edição dos melhores links da semana :-).

Tá perdido? Segue o mapa do metrô!

O Swami Chandrasekaran criou um mapa, no estilo de um mapa de metrô, mostrando os pontos por onde um profissional de ciência de dados deve passar para chegar ao seu destino final, seja fundamentos de ciência de dados, aprendizado de máquina, visualização ou mineração de texto, dentre outras. Para quem não sabe por onde começar, ou acha que esbarrou em um limite e não sabe mais o que falta aprender, recomendo! Além disso, conferências são excelentes espaços de troca de conhecimento e networking. Em várias delas, é possível conhecer grandes nomes da área, trabalhando no limiar do conhecimento. O site events.ai lista eventos de inteligência artificial (presenciais ou não) no mundo inteiro (mais eventos aqui). Não deixe de checar ;-). E se você está atrás de ferramentas para interagir com dados, o Jan Kyri mantém uma lista curada de ferramentas de Business Intelligence. Favorita aí os dois!

Vai um Lolzinho?

Para os jogadores de League of Legends que também são da área de Ciência de Dados, este post é para vocês! Riley Howsden, cientista de dados da Riot, vai mostrar algumas coisinhas que eles fazem com os dados para realizar a oferta perfeita na loja do jogo! Sistemas de recomendação, redução de dimensionalidade de dados, modelos lineares esparsos, métricas, e não para por aí! Não clicou ainda? Vai lá! :-)

Dados. Dados. Dados. Dados.

É tanta base de dados que se for falar de cada uma, você não vai aguentar terminar de ler esse post. Vou direto ao ponto: R3data, Zenodo, Dataverse (aqui você vê o dataverse da UFABC, por exemplo), Open ICPSR, Gene Expression Omnibus, Array Express e Kaggle. Centenas de milhares de datasets (milhões?).

Hora da faxina!

Na maior parte dos casos, os dados não vão chegar prontos para você rodar no seu pipeline. Muitas vezes sequer foram coletados para análise, ou para o tipo de análise que você pretende fazer. Nesses casos, uma limpeza inicial é fundamental (e olhe que sequer estou falando de etapas fundamentais de uma análise como feature selection e/ou feature engineering). Nesse link, você irá se deparar com várias bases de dados que precisam de um jeitinho aqui e ali, e as sugestões do que fazer. Serve de exercício para quem quer praticar essa habilidade.

Calma lá com esse Deep Learning!

Um amigo costumava dizer que algumas coisas “chegam chegando”. Assim são as buzzwords. De repente, todo mundo conhece X, fala de X, usa X, usou X, vai usar X, e assim por diante. Deep Learning não escapa desse ciclo vicioso. Se você não está usando Deep Learning, tem gente que vai olhar para você com aquela cara de: Sério?! Qual teu problema?!

Já ouvi relatos de funcionários que chegaram a ser demitidos por questionarem o superior, ao falar que o que eles estavam fazendo não era Big Data. O ponto aqui é que Deep Learning não é uma bala de prata para todos os seus problemas. Em alguns casos, técnicas mais simples conseguem resolver, ás vezes até com melhores resultados, e você aí usando Deep Learning em tudo para pagar de moderninho, ein?! :-P A Rachael Tatman, cientista de dados no Kaggle, fez uma apresentação sobre isso com o título: PUT DOWN THE DEEP LEARNING: When not to use neural networks (and what to do instead). Algo como “Calma lá com o Deep Learning: Quando não usar redes neurais (e o que fazer em vez disso)”. Vídeo da palestra aqui! E para quem curte um pouco de história, a Kate Strachnyi escreveu um post contando uma breve história das redes neurais.

Causalidade

Para quem acompanha os meus melhores links da semana, vez ou outra teremos uma enxurrada de links sobre causalidade, não tem jeito. E se brincar, tem gente que não entende o porquê de eu trazer os links de causalidade para cá. Pode acreditar, o futuro da Inteligência Artificial e do Aprendizado de Máquina vai passar pelo causalidade! Se você acompanha os principais eventos da área, já deve ter visto que causalidade está invadindo os tópicos de interesse, palestras, e assim por diante. O Paul Hünermund, professor da Universidade de Maastricht, escreve sobre vários tópicos, dentre eles a causalidade. Três posts introdutórios chamaram minha atenção recentemente, e acho que é uma leitura válida para quem está começando a velejar por essas águas: Não tem almoço grátis em inferência causal, Grafos e Navalha de Occam e Não coloque muito significado em variáveis de controle.

Oportunidades!

  1. Trainee — Big Data & BI na Hitss do Brasil Serviços Tecnológicos LTDA.
  2. Postdoctoral position in Machine Learning in Computational Biology no Broad Institute of Harvard/MIT.
  3. Postdoctoral position in machine learning na Universidade de Bergen.
  4. Especialista em BI na TRACK&FIELD.
  5. Pessoa engenheira de Dados (Pleno) na Magnetis.
  6. Doctoral/Postdoctoral Position for Google Focused Research Award in Conversational AI no Statistical Natural Language Processing Lab do Departamento de Computação Linguística da Universidade de Heidelberg.
  7. Analista de Dados na Yandeh/Alpe.
  8. 3 year PhD position in Deep Learning for Text Analytics na Universidade de Essex.
  9. 5 PhDs for INTO-PROT: Improving proton therapy in brain, head and neck cancer em várias universidades diferentes na Holanda.
  10. Data Scientist na Braskem.
  11. Two-year funded postdoc position in machine learning (Bayesian deep learnig) em Toulouse.
  12. Pós-doutorado (financiamento por 2 anos) em machine learning (Multimodal data processing for multimedia artistic creation) em Toulouse.
  13. Pós-doutorado (financiamento por 2 anos) em machine learning/signal em Toulouse.

Como vocês sabem, essa série é uma versão resumida e mais contextualizada da série Best Links of the Week do meu blog pessoal. Caso queiram uma versão mais crua, mas mais extensa e completa, é só checar lá! Tem links fora da temática de data science também!

Espero que tenham gostado, e até mais [links]!