Photo by Oliver Hale on Unsplash

Data Wrangling x Data Munging

Giovanni Angelo
Dados de Cientista
Published in
3 min readDec 26, 2020

--

Para que serve? Qual a diferença entre cada um? Existe realmente diferença?

É verdade que dentro de qualquer campo de estudo, e principalmente dentro da tecnologia, somos obrigados a lidar a cada dia mais com novas siglas ou expressões sobre métodos, linguagens ou processos que evoluem mais rápido do que geralmente conseguimos acompanhar.

Quando decidi começar os estudos para me tornar um Cientista de Dados eu sabia que teria que lidar com uma enxurrada de novos termos e expressões e que isso era parte natural do aprendizado de qualquer novo assunto. Pois bem, hoje gostaria de trazer um pouco sobre essas 2 expressões que me deparei nessa jornada de aprendizado.

Data Wrangling / Data Munging

Um bom ponto de partida para compreendermos o que são é verificarmos a tradução do inglês para o português, que (segundo o Google Tradutor) em tradução livre seria algo como:

Data Wrangling - Disputa de Dados
Data Munging - Manipulação de Dados

Como a parte mais óbvia das expressões (“data”) sugere, as duas são ações que envolvem dados. De acordo com as definições que vimos acima, podemos deduzir que os dados são submetidos à disputas e manipulações.

Tá, mas o que isso tem a ver como Ciência de Dados?

A cada dia mais dados estão sendo gerados e armazenados. E isso é bom, mas gera um desafio ao profissional de ter que em meio a um dilúvio de dados conseguir enxergar e retirar a porção que mais tem valor para a análise proposta. Para isso os dados precisam ser manipulados e disputados entre si, daí os termos do título desse post.

Tanto o Data Wrangling como o Data Munging estão dentro de uma parte fundamental do ciclo de vida de qualquer projeto de Ciência de Dados que é o processo de Data Cleaning (Limpeza de Dados).

Para a tristeza dos cientistas de dados, nem todo dataset na vida real é organizado e limpo como o das competições do Kaggle por exemplo. A verdade é que no dia a dia somos desafiados a lidar com dados em suas mais variadas formas e qualidades, e nem sempre (senão nunca) a forma natural dos dados vai ser a melhor forma para uma análise de boa qualidade.

Por exemplo, usando a comparação que fiz neste post pra explicar a diferença entre um Cientista e um Engenheiro de Dados, o processo de data cleaning seria remover todas as imperfeições do solo. Seja tapar buracos expostos, retirar excessos para nivelamento do terreno ou até condenar uma área por risco de desabamento.

Ou para aproveitar o ainda presente clima de Natal, imagina se o Chester da ceia fosse cozinhado na travessa ainda suja da rabanada… Com certeza o resultado final não seria dos melhores.

Conclusão

Não existe uma análise boa que seja feita em cima de dados ruins.

O objetivo de Cientista de Dados é entregar valor ao negócio. E não há outra forma de cumprir este objetivo senão fazendo análises precisas em dados confiáveis. E para que os dados sejam de fato confiáveis é preciso que eles sejam entendidos, organizados e limpos antes de qualquer modelo gerar informação através deles.

Data Wrangling, Data Munging, Data Cleaning… O termo em si não importa. O importante é o resultado alcançado com as suas aplicações. Talvez você ache que essa etapa não seja muito empolgante ou até meio chata. Mas sem ela todo o trabalho feito em seguida pode perder completamente o seu valor.

E aí, o que achou dessa abordagem sobre esse tema? Caso tenha algo a contribuir, por favor deixe um comentário e vamos continuar a discussão sobre esse tema tão importante para um cientista de dados.

Se quiser ficar por dentro de outros artigos sobre Ciência de Dados, segue o dados-de-cientista pra crescermos juntos. Pra conferir os códigos me segue lá no Github e para acompanhar minha atividade profissional esse é o meu linkedin.

Grande abraço e até a próxima! 😉

--

--

Giovanni Angelo
Dados de Cientista

Cientista de Dados em formação | Coordenador de Sistemas | Administrador de Dados | Carioca