We don’t need everyone to be a Data Scientist

André Casimiro
Creditas Tech
Published in
6 min readFeb 27, 2019

Recentemente em conversas com a Bárbara Barbosa, líder do time de Data Science da Creditas, comentei com ela a dificuldade que estava tendo para encontrar bons candidatos para o time de Data Engineering. A área de dados é bastante concorrida, candidatos com não muita experiência e salários muito altos formam o cenário; e pra completar, aqueles que de fato eram boas opções para integrar nosso time estão buscando mesmo é se tornar um data scientist. Desde então toda vez que falo sobre o assunto eu repito:

Everyone wants to be a Data Scientist!!!

Bom, e não preciso dizer que não sou o único achando isso né? Veja essa pergunta no Quora questionando se estamos em direção a uma bolha de talentos em Data Science.

Pois é, mas a verdade é que para ser um verdadeiro talento em ciência de dados você precisa ser aquele ser fantástico que todo mundo já ouviu falar: uma pessoa que tem “hacking skills”, conhecimento de matemática e estatística e domínio do negócio. Um verdadeiro unicórnio!

Aquela imagemzinha clássica que vale sempre relembrar ;)

Unicórnios não nascem unicórnios

Sim, unicórnios existem. Verdadeiros talentos em ciência de dados existem. Pessoas que dominam tudo o que é necessário para gerar impacto no negócio utilizando dados, desde a concepção do problema de negócio até a entrega do modelo em produção, existem. Mas elas não começaram a carreira assim. Simplesmente não é possível alguém ter a experiência necessária para desempenhar esse papel tão complexo com poucos anos de carreira.

Estudar bastante, se dedicar, fazer toda sorte de cursos online sobre os mais diferentes tipos de algoritmos e técnicas parece a estratégia padrão para virar um unicórnio. Mas a verdade é que para ser relevante na resolução de problemas reais é preciso bem mais que isso. É preciso experiência, é preciso vivência; e isso só vem com o trabalho e com o tempo.

Em seu post “Data science is different now”, Vicki Boykis, uma cientista de dados no mercado desde 2012, relata que o mercado hoje está saturado de candidatos a uma vaga júnior de ciência de dados, onde a concorrência chega a ser de 100 candidatos para 1 vaga. Ela aconselha os aspirantes à cientistas de dados a utilizar o seguinte plano para para iniciar na carreira:

1. Don’t shoot for a data science job
2. Be prepared for most of your data scientist work to not be data science. Adjust your skillset for that.

em seguida, referente a este relatório da PWC, ela afirma:

… the number of data science positions is estimated at 50k. The number of data engineering postings is 500k. The number of data analysts is 125k.

It’s much easier to come into a data science and tech career through the “back door” …

O que é exatamente a realidade que temos visto nas candidaturas para as vagas de Data Scientist e Data Engineering da Creditas.Temos muito mais concorrência nas vagas de DS e muito mais vagas abertas para DE.

Não precisamos mais de unicórnios, queremos cavalos de corrida

Embora seja extremamente valioso termos em nosso time os tão disputados unicórnios, entendemos que essa não é a melhor maneira de trabalhar. Os tempos mudaram, hoje na Creditas buscamos especialização dos times de Data Science e Data Engineering. Desse modo podemos potencializar a eficiência de cada um dos times.

Um fato já amplamente conhecido é que de 70% a 80% ou mais do tempo gasto por cientistas de dados é na verdade apenas a preparação dos dados. Um trabalho cuja responsabilidade é claramente de Data Engineer.

Um outro exemplo desse tipo de situação é a organização dos dados no data lake, a captura de dados através de crawlers, ou ainda o empacotamento e deploy dos modelos gerados (função hoje sendo definida como machine learning engineer).

Não precisamos de unicórnios capazes de resolver os problemas sozinhos, pois este não é um modelo sustentável nem escalável. O que mais temos necessidade hoje é de engenheiros(as) de dados para criar infraestrutura que maximize o tempo dos cientistas focados em análise de dados e treino de modelos.

A relação entre Data Engineering e Data Science

Data Engineering é a parte de Data Science focada principalmente em infraestrutura tecnológica e analítica, com intuito de coletar, organizar e viabilizar as análises necessárias. Para facilitar esse entendimento, criei uma nova versão do diagrama de venn das skills necessárias a um cientista de dados quebrando a dimensão de “hacking skills” em “programação” e em “banco de dados”, específicas e presentes no dia a dia de Data Engineering.

Diagrama de comparação dos skills de Data Engineering em relação à Data Science

Olhando para o diagrama, vemos que a única habilidade não exercitada no trabalho de Data Engineering é o uso de matemática e estatística. O que fazemos em nosso dia a dia é codificação de fluxos de movimentação, preparação e transformação de dados; tendo como objetivo democratizar o acesso aos dados dentro da organização de maneira simples e intuitiva.

Como disse anteriormente, a necessidade de acelerar as entregas tem exigido especialização dos nossos times e o uso de matemática e modelos estatístico tem servido como uma fronteira bem definida entre as responsabilidades de DE e DS; e é provável que esse seja um movimento do mercado como um todo.

Além disso, é preciso dizer que um Data Engineer não é um Data Scientist que não sabe matemática; não é uma questão de qualificação e sim de especialização. O DE foca em infraestrutura para que o DS foque em pesquisa e modelagem. Um bom time de DE destrava a produtividade de toda a empresa no uso de dados, inclusive do time de DS. (este parágrafo foi sugestão da Jéssika Darambaris, obrigado!)

Gostei, explica melhor o que vocês fazem em DE?

Em suma, tudo que diz respeito a programas que manipulam bases de dados (criar, migrar, transformar, converter, etc.), alguns exemplo seriam:

  • Construção de workflows para processamento de dados (python, airflow, spark, pandas);
  • Crawlers para captura de dados (scrapy);
  • Ingestão de dados via streaming (kafka);
  • Construção e organização do data-lake (S3, Athena);
  • Modelagem e construção do data warehouse (modelo de Kymball, Redshift);
  • Deploy de modelos de data-science;

Na lista acima, as tecnologias entre parênteses são as que utilizamos aqui na Creditas.

Perfis que procuramos para nosso time de Data Engineering

Profissionais de backgrounds diversos podem agregar em nosso time de diversas maneiras, sendo os mais comuns:

  • Desenvolvedores de softwares com interesse em dados e processamento distribuído;
  • Analistas de dados e de BI com conhecimento e interesse em programação;
  • DBAs com conhecimento e interesse em programação;
  • Engenheiros de dados com experiência;
  • Profissionais que desejam ser cientistas de dados um dia e que desejam começar a carreira colaborando com Data Engineering. :)

Como é trabalhar em Tecnologia na Creditas?

O que mais me motiva em trabalhar na Creditas é a cultura, é o primeiro lugar que sinto que os valores e propósito não são apenas frases bonitas num mural. Aqui sinto que temos muita liberdade para aprender, testar e criar. Em suma, temos muita autonomia para gerar impacto. A missão da empresa é sensacional: “viabilizar suas novas conquistas”; costumo dizer pra todo mundo que “se a gente fizer essa empresa dar certo, a situação de muitos brasileiros muda”.

Se você se interessou pelo que leu aqui e gostaria de aplicar para uma vaga em nosso time de Data Engineering. Nós estamos sempre procurando por pessoas apaixonadas por tecnologia para fazer parte da nossa tripulação! Você pode conferir nossas vagas aqui.

--

--

André Casimiro
Creditas Tech

Experienced leader in the data engineering field. I offer consultancy services, check more on: andrecasimiro.com