Os Tipos e Perfis de Engenheiros de Dados

Quais os perfis dessa profissão nova, mas que tem cada vez mais se diversificado.

Allan Sene
Data Hackers
3 min readAug 27, 2018

--

“A man wearing a protective helmet while welding metal materials.” by Christopher Burns on Unsplash

expliquei o que um Engenheiro de Dados faz há algum tempo. Mas, depois de pensar um pouco, entendi que estava descrevendo aquele unicórnio: Bicho raro, de conto de fadas, que ninguém nunca viu. Existe muita gente por aí fazendo um baita trampo como Engenheiro de Dados e cada um trampa de uma forma, curte mais uma coisa ou desembola mais em outra.

Então, será que existe um perfil pra cada Data Engineer?

Após pensar um pouco, cheguei nesses 3 Tipos que acho que definem muito bem os nichos que estão surgindo nessa profissão incrível.

Engenheiro Tipo A: grande mente com poderes sobrenaturais!

Tipo A — Analyser

Engenheiro de Dados especializado em produtizar e escalar modelos de Machine Learning. Tem know-how relevante de Data Science, modelagem de dados e sabe codar relativamente bem.

É o cara que pega o sklearn local do Data Scientist e faz rodar em produção pra milhões de usuários. Diria que é o perfil mais raro e mais difícil de se contratar hoje, Tanto no Brasil, quanto fora.

Skills comuns

  • Plataformas de ML Distribuídas: MLib (Spark), Mahout (Hadoop), AWS SageMaker.
  • Computação Paralela para Deep Learning (Tensorflow, Programação em GPUs),
  • Programação em Notebooks (Zeppelin, Jupyter)
  • Desenvolvimento em Containeres (Docker, Rkt)
Engenheiro Tipo B: Carrega o mundo (dos dados) nas costas!

Tipo B — Builder

Engenheiro de Dados especializado em provisionamento, monitoramento e escala de recursos. Tem alto domínio de Linux e de Arquitetura em Cloud.

Sabe muito mais montar e criar clusteres e serviços, do que implementar soluções com as APIs/Libs que estes disponibilizam. Faz o trabalho pesado de guardar bem Terabytes de dados e de deixar os serviços de coletas e transformação com 9 noves de disponibilidade.

Skills comuns

  • Serviços de Storage em Nuvem (AWS S3, Google FS, BigQuery, Redshift)
  • Plataformas de Streaming (Kafka, Kinesis, Storm)
  • Gerenciamento de VMs (EC2, GCC)
  • Orquestração de Containeres (Kubernetes, AWS Fargate, Mesos)
  • Ferramentas de Provisionamento e Monitoramento (Terraform, New Relic, ELK)
  • Manutenção de DataStores distribuídos (ElasticSearch, Clusteres Mongo/MySQL)
Engenheiro Tipo C: Tem um milhão de armas e artimanhas!

Tipo C — Coder

Engenheiro especializado em desenvolvimento de serviços de coleta de dados e pipelines de transformação, seja em realtime ou não. Tem grande domínio de Arquitetura de Software e DevOps.

É o cara que sempre desembolou muito bem no código, mas agora tem se especializado cada vez mais em tratar dados. Sabe tanto SQL quanto a query language zoada do Mongo.

Skills comuns

  • Programação em Java e/ou Go e Linguagens funcionais (Scala, Clojure, Elixir).
  • Paradigmas de programação distribuída (Channels, Atores)
  • SQL e Interfaces NoSQL (KQL, API ElasticSearch…)
  • Webservices
  • APIs/Plataformas de ETL (Airflow, Luigi, Nifi)

Claro que ninguém passa infalivelmente em todos estes quesitos, por mais experiente que seja.

Engenharia de Dados é um conceito novo e essencial na busca de respostas através de análises de dados massivos e vai ser cada vez mais comum que surjam mais especialidades.

E Obviamente esses perfis se sobrepõem muito comumente na vida real, mas como em toda profissão, cada um se especializa mais no que gosta.

E aí? Acha que faltou algum perfil ou habilidade? Comenta aí pra gente!

--

--

Allan Sene
Data Hackers

CTO | Lead Data Engineer | Co-Founder of Data Hackers and Dadosfera. Loves science, code and cats ^*^