Análise de Dados em Python: Passos Iniciais

Diego dos Anjos
comunidadeds
Published in
4 min readNov 22, 2023

Um passo a passo para iniciantes na análise de dados usando Python.

Em um texto publicado anteriormente, que pode ser lido neste link, falei sobre a importância de conhecer o máximo possível sobre o nosso objeto de trabalho antes de iniciar qualquer tipo de ação sobre ele.

Quando o nosso objeto de trabalho são os dados, a tentação de agir rápido é maior ainda: todos querem realizar análises, encontrar padrões, obter informações valiosas e elaborar aquele belo gráfico ou dashboard.

Porém, antes de realizar qualquer tipo de atuação sobre aqueles dados com os quais está trabalhando, o profissional precisa se esforçar em conhecê-lo.

Vantagens da exploração inicial

Dentre as diversas vantagens dessa exploração inicial estão o conhecimento do negócio, a qualidade dos dados, a prevenção de vieses, entre outros, que auxiliarão na escolha das técnicas e ferramentas mais adequadas para as análises.

Essa prática vai garantir análises mais precisas e significativas, contribuindo para a qualidade dos insights gerados e das decisões a serem tomadas a partir deles.

Explorando dados com Python

Agora, será utilizado um dataset simples para mostrar, na prática, como em algumas poucas linhas de código podemos obter informações valiosas sobre nossos dados.

Os dados serão obtidos através do dataset do Titanic, que possui informações diversas sobre cada um dos passageiros do navio e está disponível aqui. Será utilizada apenas a biblioteca pandas, que é apresentada detalhadamente neste artigo.

Antes de qualquer exploração, é fundamental que sejam conhecidas todas as informações referentes aos dados contidos e o que significa cada coluna do dataset.

Após essa contextualização, será feita a leitura do arquivo no formato csv e sua transformação em um dataframe para ser explorado.

dados = pd.read_csv(‘titanic.csv’)

Em seguida, é possível imprimir e analisar as 5 primeiras ou últimas linhas do dataset, através dos comandos head() e tail(), respectivamente. Nesse caso, utilizei o comando head.

dados.head()

Através do comando dados.columns é possível obter o nome de cada coluna. É fundamental que o analista saiba a informação que cada uma delas contém. Muitas vezes é necessário trocar o nome da coluna, de forma a facilitar sua identificação.

O comando dados.dtype informa o tipo de dados de cada coluna. Conhecer essa informação é fundamental para quando for realizar tratamento dos dados.

Já o comando dados.shape mostra a quantidade total de linhas e colunas do dataset, onde você terá uma noção do tamanho do seu conjunto de dados.

(891, 12)

O comando dados.nunique() retorna o número de valores exclusivos de cada coluna, ou seja, a quantidade de respostas diferentes que cada coluna possui. Assim, a coluna “Pclass” indica que o navio possuía apenas 3 categorias diferentes de cabine.

Por exemplo, a coluna “PassengerID” refere-se à identificação de cada passageiro, e temos 891 observações diferentes, indicando que o dataset possui informações sobre 891 passageiros do navio. É possível notar que a coluna “Name” também possui 891 observações, mostrando que não há passageiros homônimos.

Também é recomendado consultar se o dataset possui valores duplicados uma vez que, em caso positivo, deverá ser realizado alguma forma de tratamento antes de qualquer análise. Nesse caso, o dataset não possui observações duplicadas.

dados.duplicated().sum()

0

Outro comando importante é o dados.info(). Através dele é possível obter informações gerais de cada coluna do dataset, como o seu nome, tipo de dados que possui e quantidade de valores não nulos.

Nesse exemplo, pode-se observar que a coluna “Age” possui apenas 714 observações preenchidas, enquanto a informação da “Cabin” está contida em apenas 204 passageiros.

Por fim, é possível calcular e exibir as principais estatísticas descritivas do dataset em um único comando, facilitando sua visualização e interpretação. Vale salientar que o comando describe fornece informações apenas sobre as colunas com valores numéricos.

O comando acima fornece, para cada variável numérica, informações estatísticas descritivas básicas, como a sua média aritmética (mean), o desvio padrão (std), os valores mínimo e máximo, além dos percentis 25, 50 e 75.

Esses foram alguns dos principais comandos que podem ser utilizados para conhecer e explorar o seu conjunto de dados, antes mesmo de realizar qualquer manipulação neles.

Esse conhecimento prévio irá facilitar a futura manipulação e exploração dos dados, tornando a análise mais eficiente. Agora que você já sabe explorar os dados dos passageiros do Titanic, que tal ir mais além e criar um gráfico para visualizar, por exemplo, a idade dos passageiros?

--

--

Diego dos Anjos
comunidadeds

Bancário, analista de dados e professor. Cristão, marido e pai.