Análise Exploratória de Dados com Python

4 min readApr 19, 2022

Aqui, vamos mostrar como podemos utilizar o Python para uma tarefa, no meu ver a mais importante em projetos envolvendo análise de dados, a Análise Exploratória de Dados!

Análise Exploratória de Dados

Ou, em resumo, EDA (do inglês: Exploratory Data Analysis) é uma abordagem para analisar dados para resumir as principais características dos dados, obter uma melhor compreensão do conjunto de dados, descobrir relacionamentos entre diferentes variáveis e extrair variáveis importantes. EDA, é um passo importante em qualquer projeto de Análise de Dados ou Ciência de Dados.

Principal objetivo da EDA

O principal objetivo da EDA é detectar quaisquer erros ou discrepâncias, bem como entender diferentes padrões nos dados. Ele permite que os analistas entendam melhor os dados antes de fazer qualquer suposição e também descubram relacionamentos entre variáveis. Os resultados da EDA ajudam as empresas a conhecer seus clientes, expandir seus negócios e tomar melhores decisões.

Bibliotecas necessárias para EDA

Antes de mostrarmos um exemplo funcionando, vamos ver quais são as bibliotecas fundamentais necessárias para realizar o EDA. Existem muitas bibliotecas úteis, mas aqui veremos apenas as que este modelo aproveita…

# data manipulation
import pandas as pd
import numpy as np

# data viz
import matplotlib.pyplot as plt
from matplotlib import rcParams
import seaborn as sns

# apply some cool styling
plt.style.use("ggplot")
rcParams['figure.figsize'] = (12,  6)

Propriedades e funções úteis no Pandas

Vamos aproveitar vários recursos e propriedades do Pandas... Vejamos alguns deles.

.head()e.tail()Duas das funções mais comumente usadas no Pandas são .head() e .tail(). Esses dois nos permitem exibir um número arbitrário de linhas (por padrão 5) do início ou do final do conjunto de dados. Muito útil para acessar uma pequena parte do dataframe rapidamente.

.shapeSe aplicarmos .shape no conjunto de dados, o Pandas nos devolve um par de números que representam a dimensionalidade do nosso conjunto de dados. Essa propriedade é muito útil para entender o número de colunas e o comprimento do conjunto de dados.

.describe()A função describe faz exatamente isso: fornece informações puramente descritivas sobre o conjunto de dados. Essas informações incluem estatísticas que resumem a tendência central da variável, sua dispersão, a presença de valores vazios e sua forma.

.info()Ao contrário de .describe(), .info() nos dá um resumo mais curto do nosso conjunto de dados. Ele nos retorna informações sobre o tipo de dados, valores não nulos e uso de memória.

Há também . *dtypes* *e .isna()* que respectivamente nos fornecem as informações do tipo de dados e se o valor é nulo ou não. No entanto, o uso de .info() nos permite acessar essas informações com um único comando.

O Exemplo

Nosso conjunto de dados de exemplo, se trata de Vendas de uma Concessionária de veículos usados.

Caso queiram baixar a fonte de dados (Download)

Descrição das Colunas

data.set - Dado de treino ou de test
total.cost - Custo total do veiculo
lot.sale.days - Tempo de venda em dias
overage - Venda após 90 dias
mileage - Kilometragem
vehicle.type - Tipo do veículo (economy, family.medium, family.large...)
domestic.import - Fabricação, domestico ou importado
vehicle.age - Idade do veículo
vehicle.age.group - Grupo de idade do veículo
color.set - Cor
makex - Marca
state - Estado do Carro (região)
make.model - Modelo

O código

Para ficar mais fácil e prático, irei disponibilizar o código no Google Colab, fiquem a vontade para baixar e realizar seus testes e estudos.

Google Colaboratory

Análise de Dados com Python — colab.research.google.com

No código acima, tem um passo a passo bem detalhado de alguns dos principais comandos do dia a dia e o melhor, com exemplos.

Referências

A Data Scientist’s Essential Guide to Exploratory Data Analysis

Best Practices, Techniques, and Tools to Fully Understand Your Data

towardsdatascience.com

First, We Must Discover. Then, We Can Explore.

A case for a structured data-discovery approach