O mundo dos dados e suas profissões

Diogo Munaro Vieira
Data Bootcamp
Published in
5 min readNov 21, 2018

--

Data Engineering, BI Analyst, Data Analyst, Data Scientist, ML Engineering, etc …

Mas é muito “data” em tudo que é profissão que aparece. Todo mundo quer brincar com dados e vários nomes legais de profissões têm surgido por aí. Mas e você que está começando? Quer ser o quê?

Vamos tentar lhe ajudar um pouco nesse mundo louco que precisa dar nome pra tudo, para que você entenda um pouco sobre o que é cada coisa, e possa seguir brincando sempre feliz com os dados.

Data Engineering (Engenheiro de Dados)

Esse é o povo que faz a obra em Big Data! São os grandes “pedreiros que levantam a casa”. Eles que constroem e mantêm ecossistemas de processamento de grandes volumes de dados e até cuidam do chamado Data Lake.

Todos os encanamentos por onde os dados precisam escoar. Desde a coleta de dados do usuário até o enriquecimento desses dados, é responsabilidade desse profissional. No final tudo para no Data Lake para que outros setores possam consumir.

Essa profissão tende a ser bem próxima de desenvolvimento web por precisar fazer algumas APIs robustas e resilientes, mas normalmente utilizam ferramentas de Big Data para aguentar toda a carga.

Normalmente utilizam de muito conhecimento em processamento paralelo para poder processar mais rapidamente os dados. Algumas tecnologias mais utilizadas pela galera são: Javascript, Go, Scala, Spark, Flink, Kafka e Hadoop.

BI Analyst (Analista de Business Intelligence)

Eita nome bonito! Se eu fiz um comparativo com obras pro primeiro, vamos continuar! Esse seria o “pedreiro de acabamento”. Essa galera pega dados e deixa ele acessível para a empresa toda.

Os Analistas de Business Intelligence sempre coletam dados usando ferramentas de ETL (Extract Transform and Load), constroem Data Warehouses para colocar esses dados, que por sua vez pegaram de outros pontos da empresa e constroem cubos OLAP (Online Analytical Processing), que permitem até hoje a realização de várias agregações e consumo de dados por várias áreas da empresa.

Ne cenário de Big Data eles utilizam inclusive o Data Lake para construir Data Warehouses mais parrudos e integrados com o resto dos dados da empresa.

É uma profissão que ajuda diretamente a empresa a girar e dá ferramentas para mostrar aos acionistas o que está indo bem ou mal. Normalmente utilizam ferramentas de ETL para montar os Data Warehouses como: Pentaho, Talend, Tableau, SAP, etc. Para montar os cubos, algumas ferramentas de ETL já têm soluções integradas, mas existem outras bem consolidadas como a MicroStrategy, IBM Cognos e o Apache Kylin (open source).

Data Analyst (Analista de Dados)

Não tem ninguém mais estiloso que um Analista de Dados. Vai usar os dados construídos pelos Analistas de BI nos cubos OLAP e nos Data Warehouses para entregarem resultados lindos.

Essa galera utiliza muitas ferramentas de visualização de dados como: Superset, Metabase e Tableau, e precisam entender diretamente o melhor dashboard ou melhor relatório que os acionistas esperam. Acabam utilizando muitas planilhas como Excel, Libreoffice ou Google Sheets para tratar um pouco mais os dados.

Normalmente são os que mais sofrem com as reuniões de apresentação de metas e os que mais demandam informação do pessoal de BI. Confiam diretamente nos dados que foram passados, mas pela grande utilização dos dados, ajudam em reportar problemas devido a qualidade deles.

Data Scientist (Cientista de Dados)

Não! Não é esse tipo de ciência que você vai fazer sendo Cientista de Dados, mas com toda a certeza é a profissão mais próxima do meio acadêmico e que está super em alta no mercado. O cara que olha os dados e pensa: “de acordo com os dados poderia ser desse jeito aqui…”, ou “ estatisticamente a gente tem a oportunidade de lucrar mais assim…”.

Não sei se você percebeu, mas todas as frases acima sugerem que eu precise saber estatística e matemática. E adivinha só, está certo! Não só isso… Atualmente o cientista de dados precisa também saber Machine Learning para fazer inferências sobre os dados tanto do Data Warehouse quanto amostras do Data Lake.

Nessa profissão você interage bastante com todo mundo que eu já citei aqui (ou deveria). Utiliza Python, R, planilhas, Jupyter Notebook e TensorFlow para tentar pegar dado de todos os cantos, e todos os tipos de relatórios existentes para criar novas hipóteses, criando novas oportunidades de negócio.

Vou ser sincero: 99% do tempo vai ser frustrante e você não vai conseguir nada. Mas aquele 1%… Você descobre algo que ninguém nunca pensou antes. Para isso existem técnicas como Growth Hacking que as empresas estão começando a se acostumar a implementar.

Como você viu, é muito complicado ser um Cientista de Dados e saber tudo que precisa, mas isso está sendo visto e já é comentado em terem 3 variações de Cientista de dados: https://www.linkedin.com/pulse/one-data-science-job-doesnt-fit-all-elena-grewal/

ML Engineering (Engenheiro de Machine Learning)

E damos vida aos robôs! hahaha… Antes fosse tão romântico… É outra profissão que precisa interagir bastante com todos. O Engenheiro de Machine Learning fala com o Cientista de Dados, com o pessoal de BI e com os Engenheiros de Dados, para utilizar todos os dados possíveis e colocar o que o Cientista de Dados encontrou em funcionamento aplicando Machine Learning em grandes volumes de dados.

Enquanto o Cientista de dados trabalha com amostras e encontra modelos estatísticos para várias coisas, o Engenheiro de Machine Learning aplica isso em larga escala. Normalmente utilizam Scala, Python, TensorFlow e Spark para processar todos esses dados e compreender o que foi feito pelo Cientista de dados.

Exemplos desse trabalho, são as pessoas que colocam no ar mecanismos de recomendação de conteúdo, algoritmos de clusterização e segmentação online de usuários, etc. O que fazem acaba interagindo mais com os usuários do produto ou com integrações entre sistemas.

Mas é difícil entender na prática…

No Data Bootcamp temos vários cursos que vão te ajudar a escolher e entender melhor cada um desses pontos. Sua empresa está tentando implementar uma infraestrutura legal com todos esses elementos? Fale com a gente também!

--

--

Diogo Munaro Vieira
Data Bootcamp

Ph.D Student at PUC Rio, Head of AI at PicPay and Co-Founder at Data Bootcamp