Pré-processamento de dados na prática

Alan Santos
Jun 12 · 2 min read

Este post faz parte de uma série de tutorias de pré-processamento de bases de dados retiradas do Repositório de Aprendizado de Máquina da UCI (https://archive.ics.uci.edu/ml/). Foi utilizada a linguagem R na sua versão 3.3.1. A ferramenta IDE adotada foi o R Studio versão 1.1.456.

1. Pré-processamento do conjunto de dados credit-data.csv

O primeiro dataset a ser tratado contém dados de crédito. Os passos do pré-processamento são relatados a seguir:

O passo inicial é baixar o arquivo no link: https://archive.ics.uci.edu/ml/datasets/statlog+(german+credit+data), e salvá-lo em um diretório local.

Após fazer o download, o próximo passo é ler o conteúdo do arquivo “credit-data.csv” de um diretório local e atribuí-lo ao dataframe “credit”:

Agora, usaremos algumas técnicas de visualização para conduzir uma análise preliminar:

Removemos agora o atributo clientid, pois o mesmo não possui relevância para análise:

Para descobrir quais os registros com campos não informados, executaremos a linha abaixo:

Pela saída da execução acima, percebemos que a coluna 3, referente ao atributo idade, possui valores não informados, porém são mostrados os índices desses valores. Apagaremos então, esses registros que estão faltando:

Descobrimos que há idades com valor negativo (<0). Estes atributos inconsistentes não contribuem com o algoritmo de aprendizagem, por isso devemos tratar esses casos

A instrução abaixo vai substituir as idades negativas pela sua média:

2. Exportando os dados

Por fim, exportamos o dataset limpo e pré-processado para o arquivo csv “new_credit” :

Pré-processamento de dados na prática

Este post apresenta o pré-processamento de duas bases de dados retiradas do Repositório de Aprendizado de Máquina da UCI. Foi utilizada a linguagem R. A ferramenta IDE adotada foi o R Studio.

Alan Santos

Written by

Technology, Data Science, AI, innovation and machine learning enthusiast

Pré-processamento de dados na prática

Este post apresenta o pré-processamento de duas bases de dados retiradas do Repositório de Aprendizado de Máquina da UCI. Foi utilizada a linguagem R. A ferramenta IDE adotada foi o R Studio.