Analisando Dados do Airbnb — Rio de Janeiro

Luigi Pontello
luigipontello
Published in
6 min readFeb 10, 2021

O Rio de Janeiro continua lindo…

Qual brasileiro nunca escutou esse trecho da musica Aquele Abraço do saudoso Gilberto Gil.

Segunda capital do Brasil, e o segundo maior PIB do país, o Rio de Janeiro é famoso principalmente pelas suas belezas naturais, belas praias, pontos turísticos mundialmente conhecidos como o Cristo Redentor, e claro, pelo seu carnaval.

Hoje é o principal destino turístico, nacional e internacionalmente, eu mesmo como bom mineiro estive lá há pouco tempo. Pensando nestes detalhes, farei esta análise em um dos principais aliados de quem quer ‘turistar’ algum dia pelo Rio de Janeiro, o Airbnb.

Considerado como sendo a maior empresa hoteleira da atualidade. Ah, o detalhe é que ele não possui nenhum hotel!

Conectando pessoas que querem viajar (e se hospedar) com anfitriões que querem alugar seus imóveis de maneira prática, o Airbnb fornece uma plataforma inovadora para tornar essa hospedagem alternativa.

No final de 2018, a Startup fundada 10 anos atrás, já havia hospedado mais de 300 milhões de pessoas ao redor de todo o mundo, desafiando as redes hoteleiras tradicionais.

Uma das iniciativas do Airbnb é disponibilizar dados do site, para algumas das principais cidades do mundo. Por meio do portal Inside Airbnb, é possível baixar uma grande quantidade de dados para desenvolver projetos e soluções de Data Science.

Sem mais delongas, vamos a resolução e análise do dataset.

Bibliotecas utilizadas

Como realizaremos esta análise?

A ideia desta primeira etapa, é fazer com que eu, ou você, tenhamos uma ideia de onde estamos nos metendo. De uma forma mais formal, entender como os dados estão compostos, como estão estruturados, quais dados nós temos, para ai sim tratarmos ou não estes, e a posterior, realizarmos análises e extrairmos insights.

Para que ninguém fique perdido, coloco um dicionário com todas as variáveis existentes neste dataset.

Observando o DataFrame

É uma ação bem comum de qualquer pessoa que pretende realizar uma análise em um documento, plotar as primeiras 5 linhas, pelo comando .head() para vislumbrar como se encontra o dataset. É um momento bom para sabermos o formato dos dados e tudo mais, e ate mesmo ja pensar quais serão as “dores de cabeça” na hora de tratar os dados.

Checando variáveis e o tamanho do dataset

Neste momento, vamos identificar quais são as entradas de dados que o nosso dataset possui, e ver quais são os tipos das colunas.

Conforme mencionado anteriormente, é um dataset na versão mais compacta. Caso queira realizar uma investigação bem mais profunda, é oferecido um dataset em uma versão mais completa, com 35847 entradas e 106 variáveis (listings.csv.gz). Porém não achei interessante de princípio realizar uma análise deste.

Aqui ja podemos visualizar como se encontram os dados, ou seja, 35870 linhas, 16 colunas.

Verificando a distribuição das variáveis

É muito interessante plotar um histograma nestes casos para nos situarmos um pouco de como tudo esta distribuído. No entanto quando plotamos percebemos alguns outliers por ele.

Não conhece o termo outlier? Um outlier é uma observação que se diferencia tanto das demais observações que levanta suspeitas de que aquela observação foi gerada por um mecanismo distinto”, em outras palavras os outliers são dados que se distanciam da realidade.

Neste nosso exemplo, podemos ver isso claramente em price e minimum_nights.

Após realizarmos uma tratativa nos dados, removendo esses outliers, podemos ter uma nova visão mais correta de como estes dados estão concentrados.

Agora ficou bem melhor a visualização né? São em pequenos detalhes assim que conseguimos aprimorar e ter uma assertividade bem maior em nossas análises.

Após tratarmos este dataset, vamos responder as nossas primeiras perguntas: qual o preço médio do aluguel no Rio de Janeiro e qual a média de noites mínimas permitidas.

Ou seja, o valor médio do aluguel do Airbnb no Rio de Janeiro é de R$ 373,00 e o mínimo de noites médias é de aproximadamente 3 noites.

Qual tipo de imóvel mais alugado pelo Airbnb no Rio de Janeiro?

Em nosso dataset possuímos uma coluna chamada room_type, esta coluna contém o tipo da locação que está anunciada no airbnb, ou seja, se é um apartamento, casa, apenas um quarto…

Então vamos responder a esta pergunta:

Assim percebemos que a esmagadora maioria dos anúncios no Airbnb são de apartamentos para alugar, o que faz bastante sentido, pensando em uma cidade do tamanho do Rio de Janeiro.

Qual o bairro mais caro no Rio de Janeiro para alugar pelo Airbnb?

Muitos são os fatores que podem influenciar no preço de um aluguel, podendo ser localização, a vista do local, toda a segurança que o bairro ou mesmo o imóvel possua, sua estrutura física. Estes são apenas alguns exemplos que podem ocasionar uma variação de preços.

Logo que fui realizar esta busca pelo nosso dataset, reparei um fato curioso, o bairro “Vaz Lobo” constava como o primeiro lugar em questão de valores de aluguel pelo Airbnb.

Fiquei bastante intrigado, pois, apesar de não morar no Rio de Janeiro, eu imaginava uma outra realidade com estes valores, pensei logo em Ipanema no topo. Porém, lembra dos outliers que citamos anteriormente? Pois é, eles estão aqui também.

Quando fui pesquisar quantas unidades existiam em Vaz Lobo, percebi que eram apenas três, o que claramente causava uma distorção enorme nesta análise.

Sendo assim, como contornei este problema? Simples, resolvi checar apenas os bairros que tivessem pelo menos 50 unidades para alugar.

Realizando esta tratativa percebemos que o cenário muda para algo mais real, tendo o bairro Lagoa e Leblon no topo, e claramente eu como um péssimo advinha, pois imaginei Ipanema em primeiro e ela está apenas no Top 7.

Como podemos visualizar os alugueis por preço e localização?

Uma coisa bem legal que nosso dataset possui, é o fato de todo endereço conter latitude e longitude, sendo assim conseguimos plotar um gráfico de calor, mostrando a localização dos imóveis por preço, de forma beem simples!

Conclusão

Esta análise foi feita em conjunto a uma etapa do curso de Data Science na Prática, foi uma primeira análise introdutória com a base de dados do Airbnb, porém foi-se necessário buscar alguns pontos para suprir necessidades que surgiram durante o projeto, principalmente para a tratativa dos dados.

Notamos que em algumas localidades há poucos imóveis disponíveis, o que pode distorcer as informações estatísticas de alguns atributos, como foi o caso do bairro do Vaz do Lobo.

Por fim, lembra-se que este dataset é uma versão resumida, ideal apenas para uma abordagem inicial. Recomenda-se que seja usado, em uma próxima análise exploratória, o conjunto de dados completos, com 106 atributos disponíveis.

Dados para contato:

Linkedin

Github

Código da Análise

--

--