Análise Exploratória de Dados com Python

Alex Souza
4 min readApr 19, 2022

--

Aqui, vamos mostrar como podemos utilizar o Python para uma tarefa, no meu ver a mais importante em projetos envolvendo análise de dados, a Análise Exploratória de Dados!

Python para Análise de Dados

Análise Exploratória de Dados

Ou, em resumo, EDA (do inglês: Exploratory Data Analysis) é uma abordagem para analisar dados para resumir as principais características dos dados, obter uma melhor compreensão do conjunto de dados, descobrir relacionamentos entre diferentes variáveis ​​e extrair variáveis ​​importantes. EDA, é um passo importante em qualquer projeto de Análise de Dados ou Ciência de Dados.

Visão global

Principal objetivo da EDA

O principal objetivo da EDA é detectar quaisquer erros ou discrepâncias, bem como entender diferentes padrões nos dados. Ele permite que os analistas entendam melhor os dados antes de fazer qualquer suposição e também descubram relacionamentos entre variáveis. Os resultados da EDA ajudam as empresas a conhecer seus clientes, expandir seus negócios e tomar melhores decisões.

Bibliotecas necessárias para EDA

Antes de mostrarmos um exemplo funcionando, vamos ver quais são as bibliotecas fundamentais necessárias para realizar o EDA. Existem muitas bibliotecas úteis, mas aqui veremos apenas as que este modelo aproveita…

# data manipulation
import pandas as pd
import numpy as np

# data viz
import matplotlib.pyplot as plt
from matplotlib import rcParams
import seaborn as sns

# apply some cool styling
plt.style.use("ggplot")
rcParams['figure.figsize'] = (12, 6)

Propriedades e funções úteis no Pandas

Vamos aproveitar vários recursos e propriedades do Pandas... Vejamos alguns deles.

.head()e.tail()
Duas das funções mais comumente usadas no Pandas são .head() e .tail(). Esses dois nos permitem exibir um número arbitrário de linhas (por padrão 5) do início ou do final do conjunto de dados. Muito útil para acessar uma pequena parte do dataframe rapidamente.

.shape
Se aplicarmos .shape no conjunto de dados, o Pandas nos devolve um par de números que representam a dimensionalidade do nosso conjunto de dados. Essa propriedade é muito útil para entender o número de colunas e o comprimento do conjunto de dados.

.describe()
A função describe faz exatamente isso: fornece informações puramente descritivas sobre o conjunto de dados. Essas informações incluem estatísticas que resumem a tendência central da variável, sua dispersão, a presença de valores vazios e sua forma.

.info()
Ao contrário de .describe(), .info() nos dá um resumo mais curto do nosso conjunto de dados. Ele nos retorna informações sobre o tipo de dados, valores não nulos e uso de memória.

Há também . dtypes e .isna() que respectivamente nos fornecem as informações do tipo de dados e se o valor é nulo ou não. No entanto, o uso de .info() nos permite acessar essas informações com um único comando.

O Exemplo

Nosso conjunto de dados de exemplo, se trata de Vendas de uma Concessionária de veículos usados.

Caso queiram baixar a fonte de dados (Download)

Descrição das Colunas

  • data.set - Dado de treino ou de test
  • total.cost - Custo total do veiculo
  • lot.sale.days - Tempo de venda em dias
  • overage - Venda após 90 dias
  • mileage - Kilometragem
  • vehicle.type - Tipo do veículo (economy, family.medium, family.large...)
  • domestic.import - Fabricação, domestico ou importado
  • vehicle.age - Idade do veículo
  • vehicle.age.group - Grupo de idade do veículo
  • color.set - Cor
  • makex - Marca
  • state - Estado do Carro (região)
  • make.model - Modelo

O código

Para ficar mais fácil e prático, irei disponibilizar o código no Google Colab, fiquem a vontade para baixar e realizar seus testes e estudos.

No código acima, tem um passo a passo bem detalhado de alguns dos principais comandos do dia a dia e o melhor, com exemplos.

Espero que tenha gostado do conteúdo… deixe seu like e comentário! Obrigado pela leitura!

--

--