Os principais papéis em um time de dados
Entenda funções, requisitos e responsabilidades
Quando falamos sobre projetos de dados, é normal focarmos a discussão em tecnologias, frameworks, fornecedores ou tendências.
Apesar da clara importância desses fatores, para que um projeto de dados tenha sucesso é essencial que ele não negligencie o seu principal ativo: as pessoas.
Um time multidisciplinar de profissionais qualificados é imprescindível quando estamos falando de desenvolver, implementar e operacionalizar uma pipeline de dados com eficiência.
Mesmo com bom planejamento e objetivos claros, a execução ficará por parte do time dedicado, e por isso a sua estrutura também precisa receber a devida atenção. Isso garante que todas as pessoas necessárias estarão envolvidas e os seus conhecimentos se complementarão de modo a obtermos os melhores resultados.
Por isso, neste artigo veremos quais são alguns dos principais papéis dentro de um time de dados e suas responsabilidades. Cobriremos:
- Engenheiro de dados
- Arquiteto de dados
- Analista de dados
- Cientista de dados
Engenheiro de dados
O engenheiro de dados é o responsável pela estruturação, operacionalização e monitoramento da pipeline de dados, garantindo o fluxo que levará os dados de suas fontes até os consumidores.
Essa função é essencial pois vai integrar diversas soluções de mercado para que os dados sejam extraídos das origens, passem pelas transformações necessárias para serem analisados e fiquem disponíveis nos repositórios corretos.
Algumas das habilidades comuns de um engenheiro de dados são: Python, Spark e SQL; desenvolvimento de pipelines batch e stream; conhecimentos das principais ferramentas de processamento e armazenamento de dados na nuvem.
E pensando em visibilidade de mercado, é interessante que um profissional dessa função também tenha as certificações oficiais das plataformas com as quais trabalha, como o Google Cloud Professional Data Engineer ou Azure Data Engineer Associate, por exemplo.
Arquiteto de dados
Apesar de haver certa sobreposição de conhecimentos entre o engenheiro e o arquiteto de dados, pois ambos atuam diretamente com a infraestrutura de Big Data, esse último tem a atuação mais focada nas áreas de planejamento e governança.
O arquiteto vai ser responsável pelo planejamento de todo ambiente onde se dará o processamento dos dados. Ele estrutura os processos de dados, avalia quais ferramentas serão utilizadas, quais serão os pontos de monitoramento, define práticas de governança e estabelece protocolos de segurança e integração.
Os maiores fornecedores de nuvem, como Google, AWS e Cloudera, também possuem certificações específicas para a função de arquiteto de dados.
Analista de dados
Responsável por criar relatórios e visualizações que serão consumidas nos processos decisórios da empresa, o analista de dados converte os dados em insights relevantes. É aqui que o real valor dos dados vem à tona.
Para isso, o profissional utiliza de ferramentas de BI (QlikSense, Power BI, Tableau, etc.) para sintetizar grandes quantidades de dados e criar representações gráficas que poderão ser facilmente consultadas pelos usuários finais.
Cientista de dados
Assim como o analista de dados, o cientista de dados visa extrair insights e responder perguntas de negócios, porém utilizando tecnologias como Machine Learning, Deep Learning e algoritmos para realizar análises exploratórias, preditivas e identificação de padrões.
Outro diferencial do cientista de dados é utilizar uma gama maior de dados, e não apenas dados tratados ou estruturados. Muitas vezes, a matéria prima para a ciência de dados serão dados brutos (ainda na camada de Raw Data dos Data Lakes), nos quais o cientista aplicará uma modelagem diferenciada para poder gerar análises mais complexas.
Portanto, esse profissional acaba contando com habilidades que vão desde conhecimentos em estatísticas, criação de bases de dados a programação de algoritmos para análise. Para tanto, faz uso de linguagens de programação como Python, R e SQL, além de precisar de domínio em Git, Jupyter Notebook e Airflow.
Nem todos os times precisarão contar com todas essas funções, e projetos diferenciados podem demandar profissionais com dedicação mais específica ou restritiva. Porém, os papéis listados acima são o cerne de um time de dados para a maioria dos projetos.
Atentar a estrutura da equipe, alinhamento dessa estrutura com o objetivo do projeto, e a alta qualificação dos profissionais são etapas essenciais de um planejamento de Big Data eficiente.