Primeiros passos no Dataprep

Dante Dantas
gb.tech
Published in
7 min readNov 24, 2023
Logomarca do Google Cloud Dataprep — fonte cloud.google

É comum dizer que 80% da análise de dados é gasto no processo de limpeza e preparação de dados (Dasu & Johnson)

De acordo com Hadley Wickham, o pai do “Tidy Data” (Dados organizados, em tradução livre), a preparação de dados não é apenas um primeiro passo, mas deve ser repetido muitas vezes ao longo da análise à medida que novos problemas surgem ou novos dados são coletados. Então, surge o Google Cloud Dataprep para resolver esse desafio, nesse artigo vamos dar uma breve introdução à ferramenta.

O que é o Dataprep

Dataprep é uma ferramenta para exploração, limpeza e preparação de dados estruturados e não estruturados que usa um algoritmo de inferência para interpretar as intenções do usuário visando auxiliá-lo com um conjunto de sugestões e padrões gerados automaticamente, assim podemos realizar o tratamento de dados sem escrever nenhuma linha de código.

A cada ação que você realiza na interface, o Dataprep sugere e prevê automaticamente a próxima transformação ideal de dados. Depois que você define a sequência de transformações, o Dataprep usa o BigQuery como base, permitindo processar conjuntos de dados estruturados e não estruturados de qualquer tamanho com apenas alguns cliques.

Ambiente do Dataprep

Imagem da interface gráfica de abertura do Dataprep

Essa é a interface do Dataprep para acessar os Fluxos (flow) que é o fluxo de trabalho para tratar os dados; Agendar os Planos (plans) que serve para automatizar um sequências de tarefas; pode visualizar todas as fontes de dados usadas nos seus fluxos por meio da Biblioteca (Library); pode ver suas conexões (connections) de base de dados e ainda um Histórico dos trabalhos executados (Job history). É importante comentar que no momento da publicação desse artigo o Dataprep ainda não dispoe de uma versão em português da ferramenta.

Tratando dados no Dataprep

Etapa 01: Para tratar seus dados no Dataprep é necessário criar um fluxo de trabalho — que chamamos de flow. Para isso basta clicar em “Create a new flow

Imagem com símbolo de mais azul.

Etapa 02: Em seguida, precisamos adicionar nossos dados. Para isso basta clicar em “Connect to your data

Imagem do fluxo do dataprep com uma faixa laranja em “Connect to your Data”

Etapa 03: Na sequência clique em “import dataset” e, selecione o ambiente onde está localizado o seu conjunto de dados, seja Google Planilhas, Big Query, Cloud Storage ou ainda faça o upload diretamente do seu computador.

Etapa 04: Agora sua tela deve estar semelhante a imagem abaixo. Em seguida vamos clicar na Recipe e depois em editar.

Imagem do fluxo do dataprep após o upload do arquivo

É na edição da Recipe que a mágica começa a acontecer, nesse espaço é onde vamos realizar todos os tratamentos de dados, o famoso ETL (ou ELT para alguns) para alcançar o Tidy Data que comentamos no inicio desse passo a passo.

Realizando o tratamento dos dados

Quando o volume de dados é muito grande, o Dataprep carrega apenas uma amostra dos dados. No nosso exemplo como temos poucas linhas foi carregado todo o conjunto de dados, que será um pequeno dataset sobre Star Wars

Trecho do Filme Ahsoka de Star Wars — Disney

Quando a edição da recipe carregar você verá uma tela similar a imagem abaixo, agora você já pode começar a manipulação do seus dados. Ainda na imagem abaixo observe no item 1 que a primeira coluna está como “title” mas a nomenclatura correta da coluna deve ser “nome”, vamos começar o nosso tratamento de dados corrigindo o nome dessa coluna que contém o nome dos personagens.

Em seguida no item 2 vamos filtrar apenas as linhas que forem do genêro feminino para saber quantas mulheres temos no conjunto de dados, após isso vamos mudar o tipo de dados no item 3 que está no formato de texto, para o formato de número inteiro, pois é a medida da altura dos personagens.

Imagem da recipe com os dados carregados.

Etapa 05: Para alterar o nome da coluna, basta clicar na seta para baixo ao lado do nome da coluna que no exemplo é ‘title’, em seguida basta selecionar a primeira opção que deve ser Rename e renomear a coluna, ao fazer isso deve aparecer algo conforme a imagem abaixo.

Imagem do fluxo do dataprep com as etapas circuladas de laranja

Em seguida basta colocar entre aspas simples o nome desejado conforme o item 2 na imagem acima e clicar em adicionar conforme o item 3. Observe que após fazer isso a coluna afetada irá ficar com uma faixa amarela e com o novo nome da coluna conforme o item 1 na imagem acima.

Parabéns!!! você aprendeu a como renomear as colunas do seu conjunto de dados no dataprep.

Agora queremos saber quais dos participantes são mulheres, para isso iremos realizar um filtro na coluna de genêro e manter apenas as linhas que são do genêro feminino.

Etapa 06: Para realizar filtros no dataprep é bem simples, basta apenas clicar no gráfico de barra correspondente com a categoria que lhe interessa. Nesse exemplo vamos clicar no gráfico de barra que representa o genêro feminino.

Imagem da recipe com a página suggestions aberta

Ao fazer isso observe que o Dataprep dá algumas sugestões automaticamente para tratar os dados, nesse caso por exemplo, o sistema sugeriu manter apenas as linhas onde a coluna genêro é igual a ‘Feminino’, ou ainda excluir as colunas que tenham essa condição dentre outras opções.

Para fins didáticos portanto vamos apenas manter as linhas, clicando em adicionar (add) onde a sugestão é Keep Rows.

Agora podemos conferir o resultado (na imagem abaixo) que antes eram 5 linhas com o passo 06 restaram apenas 3 linhas.

Imagem da recipe aberta com a coluna Tittle renomeada

Dando sequência vamos alterar o tipo de dados da coluna “Altura (cm)”. Note que ao lado do nome da coluna tem um ícone com as letras “ABC” isso indica que o Dataprep reconheceu essa coluna de dados como tipo de dados de texto — também conhecido como string. No entanto queremos que essa coluna seja do tipo de dados de números inteiros — ou integer como também é chamado.

Etapa 07: Para isso bastar clicar em cima das letras “ABC” vai aparecer algo como a imagem abaixo, em seguida clique na opção Integer. Feito isso note que o ícone agora que antes era “ABC” será substituido pelo ícone “123”

Imagem da recipe com o menu opções aberto.

É comum querermos dividir os registros nas linhas, como por exemplo separar nome e sobrenome, então vamos aprender como fazer isso também no Dataprep.

Etapa 08: Para isso basta clicar na seta para baixo ao lado da coluna que deseja dividir. Nesse conjundo de dados vamos optar pela coluna “Nome” e selecionar a opção Split Column. Note (na imagem abaixo) que podemos dividir a coluna de dados de diversas formas, tais como: por delimitador, ou entre dois ou multiplos demilitadores, ou por (e entre) posições.

Para esse exemplo vamos optar pela opção On Delimiters

Imagem da recipe aberta com o meu opções aberto.

Note que após fazer isso o Dataprep irá lhe dar novamente uma prévia de como irá ficar os seus dados. Observe que a configuração do split se deu apenas uma vez pelo delimitador espaço em branco, dividindo assim a coluna como desejavámos, que era entre nome e sobrenome.

Imagem da recipe com o menu split by delimiter aberto

Sabe aquela coluna que não vai servir para suas análises e fica ali só ocupando espaço? Então, vamos aprender como excluir colunas no Dataprep também.

Etapa 09: Para isso basta ir na seta para baixo na coluna que deseja deletar, navegar até a opção Delete (veja imagem abaixo) e “voilá” a coluna foi apagada.

Imagem recipe com o menu aberto

Tendo concluido o tratamento de dados é hora de exportar os dados, seja para análises em alguma ferramenta de visualização ou mesmo para alimentar algoritmo de Machine Learning.

Etapa 10: Para essa etapa basta clicar no Run — botão azul no lado direito (ver imagem acima) que irá abrir uma página para configurar a saída dos seus dados. Você pode selecionar a saída de dados para csv no Cloud Storage ou uma tabela no Big Query, de acordo com a sua necessidade.

Para isso basta clicar em add action, conforme imagem abaixo e realizar a configuração que mais lhe agrada.

Chegamos ao fim dos primeiros passos com o Dataprep, espero que tenha lhe ajudado a ter uma breve noção sobre a ferramenta. É possível fazer muito mais de forma rápida e com uma curva de aprendizado bem curta, concluindo o trabalho de preparação de dados em poucos minutos.

Dentre as diversas coisas que pode-se fazer com Dataprep, destaca-se a transformação de datas, clusterização, automatização de limpeza de dados, transformações preditivas, aplicar técnicas estatísticas de amostragem dentre outros.

Se quiser mais um artigo como esse sobre como fazer outras tarefas no dataprep é só comentar aqui embaixo.

Até a próxima!

--

--

Dante Dantas
gb.tech
Writer for

Estatístico em formação e Analista de dados por paixão | Analytics Engineer at Grupo Boticario