Introdução a Biblioteca Pandas
Análise dos dados AirBnb da cidade do Rio de Janeiro utilizando Python e a biblioteca Pandas
Por Que Estudar Data Science?
Empresas como Walmart utilizam Data Science para estruturar o gerenciamento de suprimentos, otimizar rotas de entregas e empacotamento para envio.
Um dos casos de maior sucesso na internet é o Netflix que utiliza ferramentas similares para fazer recomendações personalizadas a partir de conteúdos anteriores assistidos.
Imagine uma loja onde o administrador utilize ferramentas estatísticas para sugerir e assim alavancar vendas. Imagine uma sexta-feira a noite onde você voltando do serviço para na loja inteligente para comprar uma pizza. Clientes com características similares que levam pizza também levam um pack de cerveja, qual será a proposta do administrador quando você passar no caixa apenas com a pizza?
Data Science na Prática
Como parte da provocação feita no curso de Data Science na Prática fui desafiado a tentar explicar os passos e ferramentas utilizadas e aplicadas durante a evolução do material.
Todo o material a ser desenvolvido no curso será centralizado no GitHub. Esse repositório será um portfólio de projetos em constante crescimento.
Mais sobre o curso pode ser visto em:
O Google Colab
A primeira etapa do curso é uma breve apresentação sobre o Google Colab:
Mas o que seria o Google Colab ou apenas Colab pros íntimos?
É um ambiente Jupyter notebook que roda inteiramente na nuvem. Ou seja, você consegue criar e rodar seus projetos de dados sem perder tempo configurando sua máquina ou ajustando as configurações.
Uma das principais vantagens de se usar Jupyter notebooks no lugar de Interfaces de desenvolvimento (IDE) convencionais para criar projetos, é porque está página não é estática. Quando você cria um arquivo, qualquer pessoa vai conseguir rodar o código e fazer suas próprias alterações.
Imagina uma situação onde você fez uma análise para a sua empresa, 6 meses atrás. Determinado dia, o Diretor de vendas pede para você calcular uma informação completamente nova em cima daquela análise.
Se você tem apenas o relatório estático (ou mesmo um monte de arquivos .py, sem documentação), as chances são que você não vai ser capaz de entregar a informação nova em tempo hábil.
Agora, se você tem salvo todos os seus notebooks de maneira organizada, preferencialmente na nuvem, você pode executar todas as células novamente e apenas incluir mais essa análise extra.
Ficou curioso sobre o Colab, mande a pergunta nos comentários. Caso queira explorar um pouco mais, a documentação oficial é vasta.
Você pode clicar aqui para ver os seus notebooks ou mesmo criar um novo arquivo, pode tentar também.
Agora que já sabemos um pouco mais sobre o que é o Google Colab vamos ao projeto!
Apresentação da Biblioteca Pandas
Esse projeto consiste em apresentar as funcionalidades da biblioteca Pandas utilizando os dados do AirBnb disponíveis para a Cidade do Rio de Janeiro
Neste notebook irei apresentar os passas para importar uma base de dados diretamente para o Colab. A partir desses dados iremos utilizar ferramentas exploratórias como resumos estatísticos e histogramas.
Adiante com apenas uma linha de comando faremos um gráfico em forma de mapa de calor que mostra a correlação entre as variáveis (por exemplo reviews x preço).
Ao final serão apresentados exemplos de como variáveis não tratada prejudicam a análise do conjunto, assim como ferramentas para identificar e tratar esses desvios.
Todo o notebook pode ser consultado aqui: NOTEBOOK
A seguir são apresentados alguns resultados obtidos com a ferramentas:
Distribuição das variáveis:
Correlação entre as variáveis
Não deixe de conferir os passos de como utilizar as ferramentas do Google Colab para criar um formulário de pesquisa através do dataset.
Links desse post:
Meu portfólio de projetos: Github
Link para o notebook: google colab
Link para o curso: Sigmoidal
Hash Tags
#datascience #machinelearning #python #artificialintelligence #data #ai #dataanalytics #bigdata #deeplearning #datascientist #programming #coding #technology #datavisualization #computerscience #analytics #dataanalysis #tech #pythonprogramming
Compartilhe conhecimento você também!