8 maneiras de manipular DataFrames Pandas

Funções úteis, cotidianas e práticas

Anello
Anello
Mar 16 · 5 min read

Pandas é uma biblioteca de análise e manipulação de dados para Python. A estrutura de dados central do Pandas é o dataframe que armazena dados em forma tabular com linhas e colunas rotuladas.

Pandas fornece uma variedade de funções para modificar ou manipular sua estrutura central. Neste artigo, vamos passar por 8 formas diferentes de transformar dataframes.

Começamos importando as bibliotecas.

Como exemplos, usaremos o dataframe a seguir:

1. adicionar coluna

A primeira e mais importante maneira de transformação é adicionar ou dropar colunas. Uma nova coluna pode ser adicionada da seguinte forma:

Geramos os valores em uma lista e atribuímos um nome para a nova coluna. Devemos nos certificar de que o tamanho da matriz é compatível com o tamanho do dataframe.

1b. adicionar linha

Podemos usar o método loc para adicionar uma única linha a um dataframe.

A função loc especifica as linhas e colunas com seus rótulos. A expressão [5, :] indica linha com rótulo 5 e todas as suas colunas.

A função drop com parâmetro axis = 0 pode ser usada para dropar a linha.

Acabamos de dropar a linha que foi adicionada na etapa anterior.

2. drop

A função drop é usada para dropar uma coluna.

Passamos o nome da coluna para ser descartado. O parâmetro do axis está definido para 1 para indicar que estamos dropando no sentido da coluna. Finalmente, o parâmetro inplace precisa ser True para salvar as mudanças diretamente no dataframe df.

3. insert

A função de inserção adiciona uma coluna em uma posição específica.

O primeiro parâmetro especifica o índice/posição da coluna. O segundo e o terceiro parâmetros são o nome da coluna e os seus valores, respectivamente.

4. melt

A função melt converte um dataframe amplo (alto número de colunas) para longo (alto número de linhas). Considere seguir o dataframe:

Contém medições diárias consecutivas para 3 pessoas em formato longo:

A coluna passada para o parâmetro id_vars permanece a mesma e as outras colunas são combinadas a ela

5. concat

A função concat combina vários dataframes ao longo de um eixo (índice ou colunas). Considere os dois dataframes a seguir.

Veja como podemos combiná-los com concat:

Definimos o parâmetro do eixo como zero para combinar ao longo do índice. O parâmetro ignore_index redefine o índice em uma ordem sequencial. Caso contrário, os índices originais são mantidos (0,1,2,0,1,2). Para combinar ao longo das colunas, o parâmetro do eixo é definido como 1.

6. merge

A função merge também combina dataframes com base em valores comuns em uma determinada coluna ou colunas.

Podemos mesclá-los com base na coluna id:

Por padrão, apenas os valores existentes em ambos os dataframes são tomados. Podemos mudá-lo com o parâmetro “by”. Por exemplo, se definirmos é ‘“left”, todos os valores do dataframe esquerdo são tomados e apenas os correspondentes são retirados do dataframe direito.

7. get_dummies

Alguns modelos de aprendizado de máquina não podem lidar com variáveis categóricas. Nesses casos, devemos codificar as variáveis categóricas de forma que cada categoria seja representada como uma coluna.

A função get_dummies codifica o nome e as colunas “ctg”.

dummies de df

Por exemplo, na primeira fila, o nome é Jane e o ctg é A. Assim, as colunas que representam esses valores são de valor 1 e todas as outras colunas são 0.

8. pivot_table

A função pivot_table transforma um dataframe em um formato que explica a relação entre as variáveis.

Temos o dataframe à esquerda que contém duas características categóricas (ou seja, colunas) e um recurso numérico.

Queremos ver o valor médio das categorias em ambas as colunas. A função pivot_table transforma o dataframe de uma forma que os valores médios ou qualquer outra agregação possa ser vistos claramente.

o que vimos aqui

Cobrimos 8 maneiras diferentes de transformar um dataframe. Alguns deles apenas mudam a estrutura, enquanto alguns realizam um cálculo durante a transformação.

Também vimos como adicionar ou dropar linhas/colunas. Além disso, as funções de junção e concatenação transformam dataframes por meio da combinação deles. Todas essas operações são partes importantíssimas do processo de análise e manipulação de dados.

Obrigado.

Data Hackers

Blog oficial da comunidade Data Hackers

Medium is an open platform where 170 million readers come to find insightful and dynamic thinking. Here, expert and undiscovered voices alike dive into the heart of any topic and bring new ideas to the surface. Learn more

Follow the writers, publications, and topics that matter to you, and you’ll see them on your homepage and in your inbox. Explore

If you have a story to tell, knowledge to share, or a perspective to offer — welcome home. It’s easy and free to post your thinking on any topic. Write on Medium

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store