Engenheiro, Analista ou Cientista de Dados: qual profissão escolher?

Entenda a diferença entre Engenheiro, Analista e Cientista de Dados e descubra com qual perfil de profissional você se identifica.

Vanderson Amorim
comunidadeds
9 min readDec 7, 2023

--

Engenheiro, Analista e Cientista de Dados estão entre as profissões com maior potencial de crescimento entre 2023 e 2027 (BBC Brasil). Com o aumento crescente da quantidade de dados e com uma maior conscientização por parte das empresas pela importância desses ativos, esses profissionais são fundamentais para contribuir com o sucesso do negócio. Mas você sabe as diferenças entre essas 3 profissões?

1. Engenheiro de Dados

1.1 Função do Engenheiro de Dados

Para falarmos sobre a função do engenheiro de dados, primeiro precisamos entender a hierarquia de necessidades na área de dados. A imagem abaixo demonstra essa hierarquia:

Como podemos ver, a base da pirâmide são a coleta e a movimentação/armazenamento dos dados. De fato, dados são a matéria-prima de trabalho dos Analistas e Cientistas de Dados, e quanto melhor a qualidade dos dados oferecidos, melhor a qualidade do trabalho desses profissionais.

Os Engenheiros de Dados são responsáveis por fornecer os dados necessários para as demais hierarquias da pirâmide. Eles fazem isso através de uma série de etapas e processos, chamados de Pipeline de Dados. Conforme o nome sugere, pipeline (gasoduto em inglês) proporciona a movimentação dos dados de uma fonte geradora (arquivos, logs de um site, sensores em uma máquina, etc) para uma fonte de armazenamento (Data Warehouse, Data Lake, etc), fazendo os devidos tratamentos e enriquecimentos dos dados ao longo desse processo, de forma semelhante a um gasoduto transportando um gás de um ponto para outro.

No gif abaixo, podemos ter uma noção de como funciona esse processo, mostrando a movimentação e melhoria desses dados, entregando valor no final desse processo:

1.2 Perfil do Engenheiro de Dados

O engenheiro de dados precisa ser uma pessoa meticulosa e organizada, visto que ela é a responsável por garantir toda a organização e infraestrutura necessária para fornecer os dados para os demais profissionais.

Além disso, ela deve ter um pensamento sistêmico, visualizando todo o sistema de dados da empresa durante o seu trabalho, garantindo o correto funcionamento de todo o processo de pipeline de dados.

1.3 Ferramentas do Engenheiro de Dados

Para que o processo de Pipeline de Dados ocorra com êxito, o Engenheiro de Dados precisa dominar ferramentas de gerenciamento de ETL (Extract Transform Load), armazenamento (SQL e NoSQL) e processamento dos dados (Python e Apache Spark, por exemplo).

Em questão do gerenciamento de ETL, são importantes os conceitos de Data Quality, Data Lineage e Data Observability:

  • Data Quality: se refere ao monitoramento contínuo da qualidade dos dados. Isso inclui detecção de anomalias, consistências dos dados, exatidão, dentre outros aspectos. Dentre as ferramentas usadas, podemos citar a Ataccama.
  • Data Lineage: é a linhagem dos dados, e representa toda a trajetória dos dados ao longo do tempo, permitindo entender de forma lógica e visual toda a estrutura de modificações realizadas nos dados. O SQLFlow é uma das ferramentas que pode ser usada para este propósito.
  • Data Observability: é um conceito mais amplo, sendo a avaliação contínua da qualidade do sistema que fornece os dados na fonte. Ela inclui a capacidade de monitorar, rastrear e auditar o fluxo de dados, bem como a disponibilidade de metadados e informações sobre as transformações e operações realizadas nos dados. Datadog é uma ferramenta que pode ser usada para Data Observability.

O armazenamento dos dados pode ocorrer tanto em bancos de dados SQL e NoSQL. Dentre os bancos de dados SQL podemos citar o PostgreSQL, MySQL e Amazon S3. Sobre os bancos NoSQL, temos como exemplo o MongoDB e Apache Cassandra.

Por fim, sobre o processamento de dados podemos citar a linguagem Python e o Apache Spark. Python pode ser utilizado para conjuntos de dados com volumes relativamente pequenos, enquanto o Apache Spark é utilizado para grandes volumes de dados, utilizando o conceito de processamento distribuído.

2. Analista de Dados

2.1 Função do Analista de Dados

O Analista de Dados é responsável por analisar os dados da empresa a fim de transformá-los em informações, respondendo perguntas de negócio como “Qual foi o faturamento do último mês?”, “Quantos produtos foram devolvidos nos últimos 7 dias?”, “Qual o crescimento da receita em relação ao trimestre passado?” e etc.

Além de responder essas perguntas pontuais, o Analista de Dados é responsável por criar e gerenciar as métricas chave da empresa, os famosos KPI ‘s (Key Performance Indicators). Para isso, eles devem garantir que os dados estejam sempre atualizados e confiáveis.

Por fim, em algumas empresas esses profissionais também são responsáveis por montar apresentações para demonstrar a retrospectiva dos dados ao longo do ano ou de um determinado período.

2.2 Perfil do Analista de Dados

O Analista de Dados deve ser uma pessoa que tenha curiosidade e que goste de estudar sobre o mundo dos negócios, visto que suas análises devem ser feitas objetivando algum insight ou criação de novas métricas para acompanhar o negócio em que ele está inserido de forma mais assertiva.

Além disso, esse profissional deve ter um pensamento analítico e crítico aguçado, sempre avaliando os dados que são fornecidos, buscando padrões escondidos, e insights que passaram despercebidos pelo time de negócios.

Esse profissional também deve ter uma boa comunicação, pois ele precisa compartilhar os seus resultados para os seus superiores e/ou para o time de negócios, afinal, uma boa análise sem uma boa comunicação possivelmente não será levada adiante, prejudicando os resultados positivos que a análise trazia.

2.3 Ferramentas do Analista de Dados

Além dos Pipelines de Dados feito pelo Engenheiro de Dados, o Analista de Dados também é capaz de criar e gerenciar Pipelines de Dados para automatizar a atualização dos dados mais específicos, aproveitando de algumas ferramentas utilizadas pelos Engenheiros, como linguagem de programação e ferramentas de ETL.

Para a criação e gerenciamento de KPI ‘s é comum os Analistas utilizarem ferramentas de dashboard, como Power BI, Looker e Tableau, facilitando tanto o processo de criação dos KPI ’s quanto a visualização por parte do time de negócios.

3. Cientista de Dados

3.1 Função do Cientista de Dados

O Cientista de Dados também é responsável por responder perguntas de negócio, mas o seu grande diferencial em relação ao Analista de Dados é que as perguntas que eles respondem são voltadas para cenários futuros: “Qual será o faturamento nos próximos 30 dias?”, “Qual a probabilidade desse cliente estar insatisfeito com nossos serviços?” e etc.

Além de responder essas perguntas pontuais, o Cientista de Dados é responsável por treinar e gerenciar algoritmos de machine learning, conversar com as pessoas de negócio para direcionar melhor as tomadas de decisão e organizar apresentações para demonstrar os resultados dos modelos de machine learning criados.

Por responder perguntas de negócios mais complexas, os Cientistas precisam dominar 3 grandes áreas de conhecimento:

  • Estatística: permite analisar os dados de forma mais assertiva, usando inferência bayesiana e teste A/B, por exemplo.
  • Programação: permite utilizar ferramentas para automatizar processos e realizar o treinamento dos modelos de machine learning.
  • Conhecimento de Negócio: permite analisar os dados de acordo com o modelo de negócio da empresa, adequando suas análises de acordo com cada empresa.

3.2 Perfil do Cientista de Dados

Como o nome sugere, Cientista de Dados são cientistas e, portanto, devem ter um rigor científico forte, sempre se atualizando quanto aos temas e ferramentas dessa área. Estes profissionais não se contentam com uma fonte de informações, sempre buscam diversas fontes para então formar sua própria opinião sobre o assunto.

De forma semelhante aos Analistas de Dados, os Cientistas de Dados também precisam ter uma visão de negócio profunda e uma boa comunicação. Entretanto, o nível de comunicação e didática são mais elevados, visto que explicar algo complexo como um modelo de Machine Learning para o time não técnico exige um maior cuidado em como transmitir essa comunicação.

3.3 Ferramentas do Cientista de Dados

Dentre as principais ferramentas do Cientista de Dados, podemos citar Python e R, as linguagens de programação mais utilizadas nessa área. Com elas é possível tanto treinar os modelos de machine learning quanto realizar análises para responder perguntas de negócio.

Além disso, esses profissionais podem utilizar a linguagem SQL para acessar diretamente os bancos de dados para extrair os dados necessários, realizar tratamentos prévios ou para responder algumas perguntas de negócio de forma mais rápida.

4. Um Estudo de Caso

Para exemplificar melhor as funções de cada profissional, considere uma empresa fictícia de e-commerce.

Maria, a Analista de Dados da empresa é encarregada de conversar com o time de negócios para entender melhor a situação atual da empresa e entender as principais dores atuais. Com isso, ela identificou que precisa montar os KPI’s de conversão de clientes, valor médio de pedido, taxa de abandono do carrinho e a taxa de retenção dos clientes. Tudo isso sendo atualizado de forma automática.

Com isso, Maria passa para o João, o Engenheiro de Dados, quais dados ela precisa para conseguir construir esses indicadores. Sabendo disso, João projeta, constrói e realiza as devidas manutenções em um Pipeline de Dados que consegue extrair os dados em tempo real do site, através de logs e api’s do sistema da empresa, fazendo os devidos tratamentos de dados, como tirar valores duplicados, correção no formato de datas, etc. João disponibiliza os dados para a Maria através de um banco de dados na nuvem que a empresa contratou.

A partir do acesso ao banco de dados, Maria consegue extrair os dados e construir os KPI’s em um dashboard online, proporcionando à equipe de negócios acompanhá-lo de qualquer lugar e a qualquer momento.

Posteriormente, a partir do acompanhamento dos indicadores, percebeu-se que a taxa de retenção de clientes está em declínio. Bruno, o Cientista de Dados, é encarregado de analisar o que está ocorrendo e desenvolver um algoritmo de machine learning para criar sistemas de recomendação dentro do site, criar segmentação de clientes a fim de promover campanhas de marketing e descontos a partir do perfil do cliente, dentre outros projetos, a fim de reverter o comportamento atual do KPI.

Com esses projetos, Maria conseguiu fornecer um ambiente simples e visual para o time de negócios acompanhar as principais métricas e tomar decisões baseado em dados; João forneceu os dados organizados em um banco de dados, tanto para Maria quanto Bruno conseguirem realizar o seu trabalho de forma mais produtiva e assertiva; Bruno proporcionou uma experiência de compra diferente para os clientes, visando atender melhor a suas demandas e garantindo a satisfação do cliente e, consequentemente, aumentando a taxa de retenção dos clientes.

5. Conclusão

Com esse artigo você pôde ter uma noção ampla das principais atribuições das 3 profissões mais conhecidas da área de dados.

De forma resumida, o Engenheiro de Dados é responsável por retirar os dados das fontes e disponibilizá-los às demais pessoas; o Analista de Dados cria e gerencia os KPI ‘s; e o Cientista de Dados é responsável por fazer previsões de acordo com os dados passados.

É importante perceber que não há uma hierarquia entre esses 3 cargos, visto que todos são de igual importância dentro de uma empresa, garantindo o atendimento de toda a hierarquia de necessidades.

E você? Com qual perfil de profissional você mais se identificou?

Ficou com alguma dúvida ou tem alguma sugestão? Fique à vontade para deixar nos comentários ou entrar em contato comigo pelo meu LinkedIn: Vanderson Amorim | LinkedIn.

Referências e Links Úteis

Os 10 trabalhos com maior potencial de crescimento — BBC News Brasil

The AI Hierarchy of Needs | HackerNoon

--

--