Marcel Bittar
4 min readJun 29, 2020

Introdução a Biblioteca Pandas

Análise dos dados AirBnb da cidade do Rio de Janeiro utilizando Python e a biblioteca Pandas

Data Science

Por Que Estudar Data Science?

Empresas como Walmart utilizam Data Science para estruturar o gerenciamento de suprimentos, otimizar rotas de entregas e empacotamento para envio.

Um dos casos de maior sucesso na internet é o Netflix que utiliza ferramentas similares para fazer recomendações personalizadas a partir de conteúdos anteriores assistidos.

Imagine uma loja onde o administrador utilize ferramentas estatísticas para sugerir e assim alavancar vendas. Imagine uma sexta-feira a noite onde você voltando do serviço para na loja inteligente para comprar uma pizza. Clientes com características similares que levam pizza também levam um pack de cerveja, qual será a proposta do administrador quando você passar no caixa apenas com a pizza?

Data Science na Prática

Como parte da provocação feita no curso de Data Science na Prática fui desafiado a tentar explicar os passos e ferramentas utilizadas e aplicadas durante a evolução do material.

Todo o material a ser desenvolvido no curso será centralizado no GitHub. Esse repositório será um portfólio de projetos em constante crescimento.

PORTFOLIO

Mais sobre o curso pode ser visto em:

https://sigmoidal.ai

O Google Colab

Python + Colab

A primeira etapa do curso é uma breve apresentação sobre o Google Colab:

Mas o que seria o Google Colab ou apenas Colab pros íntimos?

É um ambiente Jupyter notebook que roda inteiramente na nuvem. Ou seja, você consegue criar e rodar seus projetos de dados sem perder tempo configurando sua máquina ou ajustando as configurações.

Uma das principais vantagens de se usar Jupyter notebooks no lugar de Interfaces de desenvolvimento (IDE) convencionais para criar projetos, é porque está página não é estática. Quando você cria um arquivo, qualquer pessoa vai conseguir rodar o código e fazer suas próprias alterações.

Imagina uma situação onde você fez uma análise para a sua empresa, 6 meses atrás. Determinado dia, o Diretor de vendas pede para você calcular uma informação completamente nova em cima daquela análise.

Se você tem apenas o relatório estático (ou mesmo um monte de arquivos .py, sem documentação), as chances são que você não vai ser capaz de entregar a informação nova em tempo hábil.

Agora, se você tem salvo todos os seus notebooks de maneira organizada, preferencialmente na nuvem, você pode executar todas as células novamente e apenas incluir mais essa análise extra.

Ficou curioso sobre o Colab, mande a pergunta nos comentários. Caso queira explorar um pouco mais, a documentação oficial é vasta.

Você pode clicar aqui para ver os seus notebooks ou mesmo criar um novo arquivo, pode tentar também.

Agora que já sabemos um pouco mais sobre o que é o Google Colab vamos ao projeto!

Apresentação da Biblioteca Pandas

Esse projeto consiste em apresentar as funcionalidades da biblioteca Pandas utilizando os dados do AirBnb disponíveis para a Cidade do Rio de Janeiro

AirBnb Rio de Janeiro

Neste notebook irei apresentar os passas para importar uma base de dados diretamente para o Colab. A partir desses dados iremos utilizar ferramentas exploratórias como resumos estatísticos e histogramas.

Adiante com apenas uma linha de comando faremos um gráfico em forma de mapa de calor que mostra a correlação entre as variáveis (por exemplo reviews x preço).

Ao final serão apresentados exemplos de como variáveis não tratada prejudicam a análise do conjunto, assim como ferramentas para identificar e tratar esses desvios.

Todo o notebook pode ser consultado aqui: NOTEBOOK

A seguir são apresentados alguns resultados obtidos com a ferramentas:

Distribuição das variáveis:

histograma das variáveis numéricas

Correlação entre as variáveis

Mapa de Calor (correlação entre as variáveis)

Não deixe de conferir os passos de como utilizar as ferramentas do Google Colab para criar um formulário de pesquisa através do dataset.

Links desse post:

Meu portfólio de projetos: Github

Link para o notebook: google colab

Link para o curso: Sigmoidal

Hash Tags

#datascience #machinelearning #python #artificialintelligence #data #ai #dataanalytics #bigdata #deeplearning #datascientist #programming #coding #technology #datavisualization #computerscience #analytics #dataanalysis #tech #pythonprogramming

Pandas + Python

Compartilhe conhecimento você também!

Marcel Bittar

I´m a civil engineering working in large urban infrastructure and heavy civil projects, but I´m a tech lover too