Usando pandas.cut() em Python para análise de dados: criando intervalos de data e números
Aprenda a usar o método python pandas.cut() para criar intervalos números e de datas
Análise de dados é um aspecto importante de qualquer negócio ou organização.
Com a ajuda de várias ferramentas de análise de dados, analistas podem extrair insights e tirar conclusões dos dados brutos.
Uma dessas ferramentas é a biblioteca pandas em Python, amplamente usada para análise exploratória de dados e análise descritiva.
Neste artigo, exploraremos como usar o método pandas.cut() para criar intervalos de número e data para análise de dados.
O que é pandas.cut()?
O pandas.cut() é um método na biblioteca pandas que permite dividir uma variável contínua em intervalos.
Esse método cria uma nova variável categórica com base nas categorias especificadas.
Os bins (“agrupamentos”) podem ser especificados como uma lista de números ou como um número de intervalos espaçados uniformemente.
Esse método é comumente usado na análise de dados para agrupar dados contínuos em categorias ou compartimentos. Isso é útil para criar categorias para transformação de dados, análise de séries temporais e para tornar as visualizações de dados mais informativas.
Se você quer um entendimento mais profundo sobre esses assuntos, recomendo o livro Data Science do Zero, um guia definitivo sobre como lidar com dados usando Python. Você pode encontrá-lo aqui.
Agora, vamos para o primeiro exemplo de como usar o método pandas.cut().
Criando intervalos numéricos com pandas.cut()
Suponha que temos um conjunto de dados de notas de alunos e queremos categorizá-los em notas de letras (A, B, C, D e F).
Podemos fazer isso criando bins com base nas notas (“grades”).
Agora, vamos criar as bins para as notas:
Queremos categorizar as notas nas seguintes letras: F (abaixo de 60), D (60–69), C (70–79), B (80–89) e A (90–100).
Podemos conseguir isso usando o pandas.cut():
A variável letter_grades é uma variável categórica com as notas em letras para cada nota no conjunto de dados.
Você também pode classificá-la e agrupá-la, se desejar:
Criando intervalos de data com pandas.cut()
Agora vamos ver como usar o pandas.cut() para criar intervalos de datas.
Suponha que temos um conjunto de dados de vendas diárias e queremos categorizá-los em intervalos mensais. Podemos fazer isso criando bins com base nos intervalos de meses.
Primeiro, mais uma vez, precisamos importar a biblioteca pandas e criar um conjunto de dados:
Agora, vamos criar os bins para as vendas:
E os rótulos (“labels”):
Queremos categorizar as vendas em intervalos mensais. Podemos conseguir isso usando o pandas.cut():
E esse é o resultado:
Agrupar números em intervalos é útil para gerar gráficos concisos, neste caso, usando monthly_sales no eixo X. Isso torna o gráfico mais compacto e fácil de ler.
Isso é crucial ao apresentar dados, conforme explicado em Storytelling com Dados, o manual definitivo sobre como se comunicar de forma eficaz com dados.
Veja mais aqui.
Conclusão
Concluindo, pandas.cut() é um método na biblioteca pandas que permite dividir uma variável contínua em intervalos.
Ao usar esse método, você pode criar variáveis categóricas para análise de dados e extrair insights.
Se você quiser aprender mais sobre análise de dados com Python, recomendo fortemente os seguintes livros: