Python Para Modelagem de Dados
Nesse artigo descrevo como usar Python e suas bibliotecas para modelar dados. Aqui você vai aprender a selecionar colunas, transformar dados contidos nas colunas, ler arquivos, contar valores contidos nas colunas, usar função .head(), Substituir valores faltantes (função .fillna())
Comandos básicos
Os arquivos para manipulação estão na plataforma kaggle (competições de Data Science). E estão disponíveis no link: https://www.kaggle.com/competitions/titanic/data
Importar bibliotecas/ ler arquivos .csv / comando head
No exemplo a baixo demonstro como baixar/importar as bibliotecas Pandas e Numpy, como ler os arquivos .csv e como ler as cinco primeiras linhas do arquivo.
Obs: É importante lembrar que a indexação em Python começa por zero (0), logo as cinco primeiras linhas são: 0,1,2,3 e 4.
Contando quantos valores tem na coluna “Sex”
nesse caso temos dois valores nessa coluna, male (homens) e female (mulheres). Nesses dois valores temos 577 homens e 314 mulheres e essa coluna é do tipo inteiro.
Criando coluna e transformando dados
Criei a coluna Sex_binario e coloquei nela os dados transformados da coluna Sex. Poderia ter substituido por outros valores (poderia ter colocado qualquer String), coloquei esses valores apenas para mostrar a possibilidade.
Como selecionar colunas e função .head()
Existem vários modos de selecionar itens com a biblioteca pandas, aqui demonstrei dois modos.
O primeiro modo que usei foi criar uma variável que contem as colunas desejadas e selecionei a variável.
O outro modo foi selecionar a coluna desejada.
Por fim usei o comando .head() para ver as primeiras linhas de cada coluna, basicamente esse comando lê o topo/cabeça do arquivo desejado.
Substituir valores que estão faltando/ função .fillna()
O Comando .fillna substitui os valores que estão faltando por um determinado número.