Os principais papéis em um time de dados

Entenda funções, requisitos e responsabilidades

DataLakers Tecnologia
Blog DataLakers
3 min readJun 23, 2021

--

Quando falamos sobre projetos de dados, é normal focarmos a discussão em tecnologias, frameworks, fornecedores ou tendências.

Apesar da clara importância desses fatores, para que um projeto de dados tenha sucesso é essencial que ele não negligencie o seu principal ativo: as pessoas.

Campaign Creators, via Unsplash

Um time multidisciplinar de profissionais qualificados é imprescindível quando estamos falando de desenvolver, implementar e operacionalizar uma pipeline de dados com eficiência.

Mesmo com bom planejamento e objetivos claros, a execução ficará por parte do time dedicado, e por isso a sua estrutura também precisa receber a devida atenção. Isso garante que todas as pessoas necessárias estarão envolvidas e os seus conhecimentos se complementarão de modo a obtermos os melhores resultados.

Por isso, neste artigo veremos quais são alguns dos principais papéis dentro de um time de dados e suas responsabilidades. Cobriremos:

  • Engenheiro de dados
  • Arquiteto de dados
  • Analista de dados
  • Cientista de dados

Engenheiro de dados

O engenheiro de dados é o responsável pela estruturação, operacionalização e monitoramento da pipeline de dados, garantindo o fluxo que levará os dados de suas fontes até os consumidores.

Essa função é essencial pois vai integrar diversas soluções de mercado para que os dados sejam extraídos das origens, passem pelas transformações necessárias para serem analisados e fiquem disponíveis nos repositórios corretos.

Algumas das habilidades comuns de um engenheiro de dados são: Python, Spark e SQL; desenvolvimento de pipelines batch e stream; conhecimentos das principais ferramentas de processamento e armazenamento de dados na nuvem.

E pensando em visibilidade de mercado, é interessante que um profissional dessa função também tenha as certificações oficiais das plataformas com as quais trabalha, como o Google Cloud Professional Data Engineer ou Azure Data Engineer Associate, por exemplo.

Arquiteto de dados

Apesar de haver certa sobreposição de conhecimentos entre o engenheiro e o arquiteto de dados, pois ambos atuam diretamente com a infraestrutura de Big Data, esse último tem a atuação mais focada nas áreas de planejamento e governança.

O arquiteto vai ser responsável pelo planejamento de todo ambiente onde se dará o processamento dos dados. Ele estrutura os processos de dados, avalia quais ferramentas serão utilizadas, quais serão os pontos de monitoramento, define práticas de governança e estabelece protocolos de segurança e integração.

Os maiores fornecedores de nuvem, como Google, AWS e Cloudera, também possuem certificações específicas para a função de arquiteto de dados.

Analista de dados

Responsável por criar relatórios e visualizações que serão consumidas nos processos decisórios da empresa, o analista de dados converte os dados em insights relevantes. É aqui que o real valor dos dados vem à tona.

Para isso, o profissional utiliza de ferramentas de BI (QlikSense, Power BI, Tableau, etc.) para sintetizar grandes quantidades de dados e criar representações gráficas que poderão ser facilmente consultadas pelos usuários finais.

Cientista de dados

Assim como o analista de dados, o cientista de dados visa extrair insights e responder perguntas de negócios, porém utilizando tecnologias como Machine Learning, Deep Learning e algoritmos para realizar análises exploratórias, preditivas e identificação de padrões.

Outro diferencial do cientista de dados é utilizar uma gama maior de dados, e não apenas dados tratados ou estruturados. Muitas vezes, a matéria prima para a ciência de dados serão dados brutos (ainda na camada de Raw Data dos Data Lakes), nos quais o cientista aplicará uma modelagem diferenciada para poder gerar análises mais complexas.

Portanto, esse profissional acaba contando com habilidades que vão desde conhecimentos em estatísticas, criação de bases de dados a programação de algoritmos para análise. Para tanto, faz uso de linguagens de programação como Python, R e SQL, além de precisar de domínio em Git, Jupyter Notebook e Airflow.

Nem todos os times precisarão contar com todas essas funções, e projetos diferenciados podem demandar profissionais com dedicação mais específica ou restritiva. Porém, os papéis listados acima são o cerne de um time de dados para a maioria dos projetos.

Atentar a estrutura da equipe, alinhamento dessa estrutura com o objetivo do projeto, e a alta qualificação dos profissionais são etapas essenciais de um planejamento de Big Data eficiente.

--

--

DataLakers Tecnologia
Blog DataLakers

As melhores soluções para seu projeto de Big Data. A DataLakers Tecnologia é uma empresa especializada em automatização de pipeline e governança de dados.