Usando pandas.cut() em Python para análise de dados: criando intervalos de data e números

Andréa Faria
4 min readApr 24, 2023

--

Aprenda a usar o método python pandas.cut() para criar intervalos números e de datas

Análise de dados é um aspecto importante de qualquer negócio ou organização.

Com a ajuda de várias ferramentas de análise de dados, analistas podem extrair insights e tirar conclusões dos dados brutos.

Uma dessas ferramentas é a biblioteca pandas em Python, amplamente usada para análise exploratória de dados e análise descritiva.

Neste artigo, exploraremos como usar o método pandas.cut() para criar intervalos de número e data para análise de dados.

O que é pandas.cut()?

O pandas.cut() é um método na biblioteca pandas que permite dividir uma variável contínua em intervalos.

Esse método cria uma nova variável categórica com base nas categorias especificadas.

Os bins (“agrupamentos”) podem ser especificados como uma lista de números ou como um número de intervalos espaçados uniformemente.

Esse método é comumente usado na análise de dados para agrupar dados contínuos em categorias ou compartimentos. Isso é útil para criar categorias para transformação de dados, análise de séries temporais e para tornar as visualizações de dados mais informativas.

Se você quer um entendimento mais profundo sobre esses assuntos, recomendo o livro Data Science do Zero, um guia definitivo sobre como lidar com dados usando Python. Você pode encontrá-lo aqui.

Agora, vamos para o primeiro exemplo de como usar o método pandas.cut().

Criando intervalos numéricos com pandas.cut()

Suponha que temos um conjunto de dados de notas de alunos e queremos categorizá-los em notas de letras (A, B, C, D e F).

Podemos fazer isso criando bins com base nas notas (“grades”).

Importa a biblioteca pandas e cria a Series grades

Agora, vamos criar as bins para as notas:

Cria a lista bins

Queremos categorizar as notas nas seguintes letras: F (abaixo de 60), D (60–69), C (70–79), B (80–89) e A (90–100).

Podemos conseguir isso usando o pandas.cut():

Cria a variável letter_grades para agrupar as grades

A variável letter_grades é uma variável categórica com as notas em letras para cada nota no conjunto de dados.

Variável letter_grades

Você também pode classificá-la e agrupá-la, se desejar:

Variável letter_grades agrupada e ordenada

Criando intervalos de data com pandas.cut()

Agora vamos ver como usar o pandas.cut() para criar intervalos de datas.

Suponha que temos um conjunto de dados de vendas diárias e queremos categorizá-los em intervalos mensais. Podemos fazer isso criando bins com base nos intervalos de meses.

Primeiro, mais uma vez, precisamos importar a biblioteca pandas e criar um conjunto de dados:

Importa a biblioteca pandas e cria o dataset

Agora, vamos criar os bins para as vendas:

Cria bins para intervalos mensais

E os rótulos (“labels”):

Cria as labels

Queremos categorizar as vendas em intervalos mensais. Podemos conseguir isso usando o pandas.cut():

Categoriza os dados de vendas em intervalos mensais

E esse é o resultado:

Mostra o dataframe criado

Agrupar números em intervalos é útil para gerar gráficos concisos, neste caso, usando monthly_sales no eixo X. Isso torna o gráfico mais compacto e fácil de ler.

Isso é crucial ao apresentar dados, conforme explicado em Storytelling com Dados, o manual definitivo sobre como se comunicar de forma eficaz com dados.

Veja mais aqui.

Conclusão

Concluindo, pandas.cut() é um método na biblioteca pandas que permite dividir uma variável contínua em intervalos.

Ao usar esse método, você pode criar variáveis categóricas para análise de dados e extrair insights.

Se você quiser aprender mais sobre análise de dados com Python, recomendo fortemente os seguintes livros:

--

--