Análise Exploratória de Dados com Python
Aqui, vamos mostrar como podemos utilizar o Python para uma tarefa, no meu ver a mais importante em projetos envolvendo análise de dados, a Análise Exploratória de Dados!
Análise Exploratória de Dados
Ou, em resumo, EDA (do inglês: Exploratory Data Analysis) é uma abordagem para analisar dados para resumir as principais características dos dados, obter uma melhor compreensão do conjunto de dados, descobrir relacionamentos entre diferentes variáveis e extrair variáveis importantes. EDA, é um passo importante em qualquer projeto de Análise de Dados ou Ciência de Dados.
Principal objetivo da EDA
O principal objetivo da EDA é detectar quaisquer erros ou discrepâncias, bem como entender diferentes padrões nos dados. Ele permite que os analistas entendam melhor os dados antes de fazer qualquer suposição e também descubram relacionamentos entre variáveis. Os resultados da EDA ajudam as empresas a conhecer seus clientes, expandir seus negócios e tomar melhores decisões.
Bibliotecas necessárias para EDA
Antes de mostrarmos um exemplo funcionando, vamos ver quais são as bibliotecas fundamentais necessárias para realizar o EDA. Existem muitas bibliotecas úteis, mas aqui veremos apenas as que este modelo aproveita…
# data manipulation
import pandas as pd
import numpy as np
# data viz
import matplotlib.pyplot as plt
from matplotlib import rcParams
import seaborn as sns
# apply some cool styling
plt.style.use("ggplot")
rcParams['figure.figsize'] = (12, 6)
Propriedades e funções úteis no Pandas
Vamos aproveitar vários recursos e propriedades do Pandas... Vejamos alguns deles.
.head()
e.tail()
Duas das funções mais comumente usadas no Pandas são .head() e .tail(). Esses dois nos permitem exibir um número arbitrário de linhas (por padrão 5) do início ou do final do conjunto de dados. Muito útil para acessar uma pequena parte do dataframe rapidamente.
.shape
Se aplicarmos .shape no conjunto de dados, o Pandas nos devolve um par de números que representam a dimensionalidade do nosso conjunto de dados. Essa propriedade é muito útil para entender o número de colunas e o comprimento do conjunto de dados.
.describe()
A função describe faz exatamente isso: fornece informações puramente descritivas sobre o conjunto de dados. Essas informações incluem estatísticas que resumem a tendência central da variável, sua dispersão, a presença de valores vazios e sua forma.
.info()
Ao contrário de .describe(), .info() nos dá um resumo mais curto do nosso conjunto de dados. Ele nos retorna informações sobre o tipo de dados, valores não nulos e uso de memória.
O Exemplo
Nosso conjunto de dados de exemplo, se trata de Vendas de uma Concessionária de veículos usados.
Caso queiram baixar a fonte de dados (Download)
Descrição das Colunas
data.set
- Dado de treino ou de testtotal.cost
- Custo total do veiculolot.sale.days
- Tempo de venda em diasoverage
- Venda após 90 diasmileage
- Kilometragemvehicle.type
- Tipo do veículo (economy, family.medium, family.large...)domestic.import
- Fabricação, domestico ou importadovehicle.age
- Idade do veículovehicle.age.group
- Grupo de idade do veículocolor.set
- Cormakex
- Marcastate
- Estado do Carro (região)make.model
- Modelo
O código
Para ficar mais fácil e prático, irei disponibilizar o código no Google Colab, fiquem a vontade para baixar e realizar seus testes e estudos.
No código acima, tem um passo a passo bem detalhado de alguns dos principais comandos do dia a dia e o melhor, com exemplos.