O que é pandas? Dando os primeiros passos na lib

Matheus Budkewicz
horaDeCodar
Published in
4 min readApr 20, 2018
Photo by Jeremy C on Unsplash

Conheça nosso canal no YouTube, com cursos gratuitos de qualidade e vídeos semanais, para acessar o canal clique aqui!

E aí galera, tudo bem?

Neste post irei apresentar esta famosa biblioteca feita em Python e como iniciar a utilizá-la.

Ei você leitor! Criei um novo blog para os meus conteúdos, pois o Medium mesmo sendo uma excelente plataforma, me limitava em alguns recursos, que acredito que podem atrapalhar seu aprendizado/leitura…

Você pode acessar cliquando aqui!

Obrigado pela atenção, e boa leitura! :)

Sobre a biblioteca:

pandas é uma biblioteca open-source, que pode ser manuseada facilmente para ser utilizada com estruturas de dados e análise de dados.

O que também vale ressaltar é que ela é muito amigável para o usuário, os métodos são muito úteis, adiantando muito o nosso trabalho.

A biblioteca serve par vários tipos de dados:

  • Tabulares;
  • Ordenados ou desordenado;s
  • Matrizes;
  • E qualquer outra forma de data set com dados estatísticos ou observacionais;

O que é data set?

Data sets são os arquivos que contem os dados que iremos fazer as análises, podem ser .csv, .txt, etc…

Por mais simples que seja, esta porção de dados abaixo pode ser considerada um data set:

Data set em CSV

Este arquivo contém informações de algumas pessoas, como nome, idade, se possuem carro e moto (os dois últimos em 0 ou 1, significando false ou true)

Outro ponto importante é que data sets podem ser muito complexos, e aí a maioria destes possuí um manual, onde é explicado pelo menos o intuito destes dados e o que representam as colunas.

Site oficial pandas:

Para quem tiver curiosidade: https://pandas.pydata.org/

Colocando a mão na massa:

Para mostrar o código e a execução do mesmo vou utilizar o jupyter notebook, que é uma ferramenta excelente para isso.

Futuramente pretendo fazer um artigo onde explicarei um pouco a utilização e funcionamento dele.

Site oficial Jupyter Notebook:

Caso já queira instalar na sua máquina, segue o site: http://jupyter.org/

Dica: para quem tem Windows como SO, a instalação é super simples com o Anaconda, é naquele estilo next, next, next e ok.

Recomendo pois vem tudo pronto, é só utilizar.

Iniciando de fato:

Download do data set:

Baixe aqui o data set que iremos utilizar ao longo do post.

Primeiros comandos no pandas:

Bom, primeiramente devemos importar a lib que vamos usar no projeto, que no caso é a pandas

Importando a lib pandas no jupyter notebook

Agora vamos abrir o arquivo, detalhe que estou usando como data set exemplo aquele .csv que apresentei mais cedo no post, e coloquei o mesmo para download uma seção acima

Note que o arquivo está no diretório do projeto, por isso o ‘./’, e estou usando o Linux como SO.

Lendo arquivo com a função read_csv, que é própria para arquivos .csv

Neste passo vamos apresentar o arquivo com o método head, que por default mostra as 5 primeiras linhas do arquivo, e aceita um argumento que representa a quantidade de linhas a ser mostrada

Mostrando dados do arquivo dataset1.csv com o metodo head

Agora podemos ver a primeira saída de código, os dados são representados em forma de tabela, com a primeira linha representando o cabeçalho que descreve os dados.

Vou mostrar uma outra operação que com o pandas é bem simples: ordenar os dados, neste caso, por idade

Ordenando os dados por idade

Super simples não é? E não para por aí, essa é uma das funções mais básicas da lib.

Agora vamos retirar uma informação dos dados, por exemplo, a media das idades dos indivíduos

Calculando a media de uma coluna

Outra ação extremamente fácil, apenas precisamos chamar nossa variável com o nome da coluna entre colchetes e o método mean, e está lá, a media é impressa!

Download do código:

Caso você queira analisar o código deste post, ele está no meu github :

Concluindo:

Galera, meu intuito nesse post foi mostrar que é super simples começar a utilizar a biblioteca, assim quem tem receio daquelas ferramentas cheias de configurações antes de ver o código pode ficar mais tranquilo, o pandas não é uma delas.

Mostrei também alguns comandos básicos (métodos), que se fossem em Python puro seriam muito mais trabalhosos, com uma linha, economizamos várias e muito tempo pensando e programando.

Outro ponto importante é o Jupyter Notebook, que deixa tudo mais limpo e organizado, recomendo!

E por fim, pretendo evoluir mais a questão do Data Science por aqui, utilizando suas diversas ferramentas, este é o primeiro de muitos posts.

Obrigado por lerem até o final, e até a próxima.

--

--