Como começar a analisar dados com Python: Passos Iniciais

Michele Lopes
comunidadeds
Published in
5 min readNov 17, 2023

--

Um guia prático para começar a analisar dados com Python.

Quando falamos em analisar dados com Python, temos uma infinidade de funções e bibliotecas e a pergunta que fica é: o que aprender primeiro? Ou até mesmo qual é o mínimo necessário para conseguir começar a analisar dados com Python?

A partir desses questionamentos, este artigo tem o intuito de trazer de acordo com uma visão pessoal dos meus estudos, o que é primordial.

Para leitura do artigo é importante um conhecimento prévio da linguagem de programação, pois o objetivo deste artigo é trazer uma linha lógica de etapas para realizar análise de dados com Python.

Investigando os dados com Python

Antes de focar na análise de dados em si, existe um passo que é a investigação dos dados.

Para analisar os dados, é necessário primeiro entendê-los e assim conseguir visualizar os tipos de dados que temos, entender as informações que podem ser mais relevantes, as dimensões dos dados para posteriormente escolher as melhores ferramentas e estratégias para realizar as análises e também identificar se será necessário algum tipo de limpeza nos dados.

Para isso existe algumas funções principais que podem ser utilizadas e são elas:

Os comandos .shape, .head() e .tail() nos ajudam a entender a dimensão dos dados que estamos analisando e as informações que temos em cada linha e coluna da tabela, dessa forma conseguimos ter uma primeira percepção das informações, quais podem ser mais importantes e identificar alguns possíveis caminhos para utilizar na parte de análise de dados, além de saber o volume dos dados que você tem em mãos para a análise.

O comando .dtypes mostra o tipo de variável de cada coluna, desta forma conseguimos identificar colunas que será necessário realizar a conversão dos dados por não estarem configuradas no tipo correto.

O comando .isna().sum() nos possibilita saber a quantidade de NaNs (dados faltantes) em cada coluna, assim identificamos quais coluna vamos precisar tratar esses dados faltantes e também se existe alguma coluna em que o volume de dados faltantes é muito expressivo com relação ao total de dados que possuímos.

Além de investigar os dados como um todo, é importante também entender melhor as colunas individualmente, para isto os seguintes comandos podem ser úteis:

As funções da tabela acima nos possibilita uma melhor descrição dos dados que serão trabalhados, entendendo quantidade de valores, limites máximo e mínimo, valor de média e soma total.

Preparando os dados para análise com Python

Após investigar os dados, conseguimos informação suficiente para seguir com as devidas tratativas antes de iniciar as análises, abaixo uma lista das tratativas mais frequentes:

  • Tratar os NaNs das colunas;
  • Converter os dados para o tipo correto de variável;
  • Excluir espaços em branco das linhas e colunas;
  • Padronizar os nomes das colunas;
  • Realizar transformações nos dados que irão auxiliar nas análises posteriores.

O uso de cada tratativa vai depender do que foi identificado na parte de investigação dos dados. O objetivo dessa etapa é preparar os dados para facilitar o uso posterior e também em alguns casos possibilitar o uso, pois não conseguimos realizar algumas operações em colunas que possuem NaNs, por exemplo.

Finalizando esta etapa, estamos com os dados prontos para iniciar as análises. Para isso, temos algumas bibliotecas principais que são importantes para conhecer.

A biblioteca Pandas na análise de Dados com Python

O Pandas é uma ferramenta essencial para qualquer pessoa que trabalhe com dados. Sua combinação de facilidade de uso e poder de análise o torna indispensável na manipulação e compreensão de conjuntos de dados complexos.

Ela desempenha um papel fundamental na análise de dados, por conta de sua capacidade de simplificar tarefas de manipulação e análise de dados.

Ela oferece inúmeras funções e métodos para realizar operações de filtragem, agrupamento, classificação e transformação dos dados. Além disso, existem diversas funções que podemos usar também na etapa de limpeza e investigação dos dados e também nos permite importar dados de várias fontes, como arquivos CSV, Excel, Bancos de dados SQL.

Você pode consultar a documentação da biblioteca, com o descritivo de suas funções, no seguinte link: https://pandas.pydata.org/docs/

A biblioteca NumPy na análise de Dados com Python

O NumPy desempenha um papel crítico na análise de dados, fornece uma base sólida para cálculos numéricos eficientes, cálculos estatísticos e operações em arrays multidimensionais. Ele é uma das bibliotecas mais fundamentais no ecossistema de análise de dados com Python.

Entre alguns aspectos, vale destacar a agilidade que a biblioteca trás para operações numéricas, se comparado com as listas Python regulares. Fornece ferramentas que facilitam a extração de informações relevantes de conjuntos de dados e consegue integrar com outras bibliotecas e ferramentas de análise de dados.

Você pode consultar a documentação da biblioteca com mais detalhes no seguinte link: https://numpy.org/doc/

Bibliotecas de visualização de dados

Além das bibliotecas para transformações e operações com os dados, é necessário também conhecer algumas para o uso na parte de visualização de dados.

A partir do momento que conseguimos entender os dados, realizar a limpeza e operações para conseguir responder perguntas de negócio, é importante, para uma melhor interpretação, trazer essas informações de forma visual.

É nesse momento que entram os gráficos. Gráficos de caixa, colunas, pizza, gráficos de correlação…um aprofundamento de como usar os gráficos da melhor forma é assunto para um outro artigo. Para esse gostaria apenas de trazer algumas bibliotecas principais que podemos usar para a elaboração de gráficos:

-Matplotlib: Fornece um conjunto flexível e completo de ferramentas para criar gráficos estáticos, como gráficos de linhas, de barras, de dispersão, histogramas e muito mais. É altamente personalizável, permitindo que os usuários controlem todos os aspectos do gráfico, desde as cores até os eixos.

-Pyplot: É um módulo do Matplotlib que fornece uma interface simples e de alto nível para criar gráficos. Ele é frequentemente usado para criar rapidamente gráficos simples sem precisar lidar diretamente com os detalhes de configuração do Matplotlib.

-Seaborn: Oferece uma interface de alto nível para a criação de gráficos estatísticos atraentes e informativos, simplificando a criação de visualizações de dados complexos. Especialmente útil para criar gráficos de distribuição, gráficos de relação e gráficos de categorias com facilidade.

Dicas finais para analisar dados com Python com excelência

Saindo um pouco da parte ferramental, que foi o foco do artigo como um todo, um dos aspectos mais importantes para uma análise de dados com excelência é o entendimento do contexto do negócio.

Por conta disso, sempre antes de iniciar uma análise, pesquise. Pesquise internamente na empresa, converse com os líderes de outras áreas e entenda como funciona os processos, a importância de cada área, quais perguntas de negócios são relevantes.

Pesquise em outras fontes, busque informações de negócios parecidos com o que você está lidando, cases de outras empresas.

Todas essas informações, junto com as ferramentas corretas, irão te trazer contexto para conseguir analisar dados com excelência.

--

--

Michele Lopes
comunidadeds

Production Engineer | Data Scientist | Data Analyst