Python Para Modelagem de Dados

João Victor Amaral Gonçalves
2 min readApr 6, 2022

--

Nesse artigo descrevo como usar Python e suas bibliotecas para modelar dados. Aqui você vai aprender a selecionar colunas, transformar dados contidos nas colunas, ler arquivos, contar valores contidos nas colunas, usar função .head(), Substituir valores faltantes (função .fillna())

Comandos básicos

Os arquivos para manipulação estão na plataforma kaggle (competições de Data Science). E estão disponíveis no link: https://www.kaggle.com/competitions/titanic/data

Importar bibliotecas/ ler arquivos .csv / comando head

No exemplo a baixo demonstro como baixar/importar as bibliotecas Pandas e Numpy, como ler os arquivos .csv e como ler as cinco primeiras linhas do arquivo.

Obs: É importante lembrar que a indexação em Python começa por zero (0), logo as cinco primeiras linhas são: 0,1,2,3 e 4.

Contando quantos valores tem na coluna “Sex”

nesse caso temos dois valores nessa coluna, male (homens) e female (mulheres). Nesses dois valores temos 577 homens e 314 mulheres e essa coluna é do tipo inteiro.

Criando coluna e transformando dados

Criei a coluna Sex_binario e coloquei nela os dados transformados da coluna Sex. Poderia ter substituido por outros valores (poderia ter colocado qualquer String), coloquei esses valores apenas para mostrar a possibilidade.

Como selecionar colunas e função .head()

Existem vários modos de selecionar itens com a biblioteca pandas, aqui demonstrei dois modos.

O primeiro modo que usei foi criar uma variável que contem as colunas desejadas e selecionei a variável.

O outro modo foi selecionar a coluna desejada.

Por fim usei o comando .head() para ver as primeiras linhas de cada coluna, basicamente esse comando lê o topo/cabeça do arquivo desejado.

Substituir valores que estão faltando/ função .fillna()

O Comando .fillna substitui os valores que estão faltando por um determinado número.

--

--