Botando o R para pensar em função de linhas e dicas de Git— Os melhores links da semana #11

Os melhores links da semana de 27 de Maio a 2 de Junho de 2019!

Marcel Ribeiro Dantas
Data Hackers
4 min readJun 7, 2019

--

Olá p-essoal! Sexta-feira chegou e mais uma edição dos melhores links da semana :-).

Versionamento de código: a must

Se você já trabalhou como desenvolvedor em alguma empresa ou contribuiu para algum projeto de software como voluntário, as chances de você já ter utilizado versionamento de código são muito altas. E dado que o Git é o sistema de versionamento de código mais popular hoje em dia, é bem provável que você também já tenha tido suas aventuras com ele. Existe uma série de tutoriais na página da Atlassian onde você poderá aprender desde o básico em Git até tópicos mais avançados. Eu gostaria de dar uma ênfase maior aos tópicos avançados, pois estão bem didáticos nessa série de tutoriais. Os comandos mais simples do Git explanados de forma clara, você poderá encontrar em milhares de lugares. Já git cherry-pick, alguns parâmetros mais avançados de git log, refs and the reflog, e a diferença entre Merge e Rebase, é um pouco mais complicado. E a série de tutoriais da Atlassian traz isso bem detalhadinho pra você. Para complementar o git cherry-pick, acho que vale a pena compartilhar também esse link.

Sobre utilizar o Git e o RStudio, tem conteúdo de qualidade aqui e aqui.

Dados para você analisar :-)

Além da busca por conhecimento, a busca por dados para se analisar faz parte do dia a dia do cientista de dados. O governo francês tem alguns dados públicos para você, assim como o governo americano e as nações unidas.

Dicas para suas análises

Classificando o sexo através do nome

Você talvez já tenha se deparado com situações onde você tem o nome de um indivíduo mas não tem o sexo. E aí? O Álvaro Justen do Brasil.IO escreveu um post sobre isso. Além disso, tem também um pacote para o R chamado genderBR que te ajuda nessa tarefa.

Como trabalhar em função de linhas, e não colunas no R?!

Essa pergunta pode parecer um pouco boba. Se você correr agora e começar a escrever um código em R é possível que você consiga fazer o que eu irei abordar aqui. Talvez já tenha inclusive passado pela sua cabeça: Não seria apenas transpor a matriz? A resposta curta é não, já que não é sempre que trabalhamos com matrizes no R. Estruturas como data frames ou tibbles são preferíveis para algumas análises.

Imagine que você queira descobrir a média das alturas de um conjunto de indivíduos. Só chamar a função mean na coluna altura, né? E se você quisesse a média de todas as colunas para uma determinada linha? rowMeans! Fácil, né? E se você quisesse a mediana? Opa, agora pegou. Não tem rowMedians no base do R. Vai fazer um loop? um apply por linha? A coisa começa a ficar feia, e feia aqui falo também de legibilidade. Há uma tendência para se utilizar o modo “tidyverse” de escrever. E é justamente o tidyverse que te traz uma palavrinha chave (rowwise) que muda o jeito de pensar do R para trabalhar em linhas em vez de colunas. Mais sobre esse tópico você encontra aqui.

O profissional cientista de dados

Você já deve ter se perguntando oque faz o cientista de dados ser o profissional mais procurado pelos RHs. Esse texto da StartSe levanta uns pontos interessantes nesse tema. O Anderson Amaral aborda aqui uma lista das primeiras coisas que você deve aprender como um aspirante a cientista ed dados, e aqui o Mario Filho explica para você como se tornar um cientista de dados bem-sucedido.

Oportunidades

  1. Cientista de Dados at DESIGN & PRODUTO & ENGENHARIA.
  2. Cientista de Dados, Engenheiro P&D em Matemática Aplicada at Saint-Gobain.
  3. Engenheiro de Dados at Tembici.
  4. Analista de Modelagem de Dados at Take.
  5. Bot Specialist — Integrador at Hi Platform.
  6. Engenheiro de Dados — Nível Sênior at HrSoul Hunting Relationship.
  7. Analista de Sistemas Pleno at BR Home Centers.
  8. Senior Data Scientist — Marketing Algorithms at TFG Co.
  9. Senior Data Scientist — Product Insights at TFG Co.
  10. Analista de Banco de Dados I at Input Tecnologia.
  11. Analista Big Data at INFOVAGAS.
  12. Marie Curie PhD: Conversational AI for automated digital health counseling at University of Cagliari/Philips.
  13. Postdoctoral Research Associate in Machine Learning for Medical Image Analysis at University of Sheffield
  14. PhD Scholarship Position in Deep Learning and Optimization at Chalmers University of Technology.
  15. MSc+PhD in Biomedical Artificial Intelligence at University of Edinburgh.

Como vocês sabem, essa série é uma versão resumida e mais contextualizada da série Best Links of the Week do meu blog pessoal. Caso queiram uma versão mais crua, mas mais extensa e completa, é só checar lá! Tem links fora da temática de data science também!

Espero que tenham gostado, e até mais [links]!

--

--

Marcel Ribeiro Dantas
Data Hackers

Early Stage Researcher at Institut Curie and PhD Student at Sorbonne Université. Data Scientist, Software Freedom Activist and Bioinformagician!