Análise de Dados do Airbnb — Havaí

Uma análise exploratória do dataset do Airbnb no Havaí

Henrique W. Franco
6 min readSep 2, 2023
Fonte: Go Hawaii

Esse é um artigo resumido sobre os principais insights retirados do meu estudo sobre as acomodações do Airbnb no arquipélago do Havaí. Caso queira conferir o estudo completo, pode acessar abaixo meu GitHub:

Airbnb

O Airbnb revolucionou a indústria de hospedagem ao conectar pessoas que desejam alugar suas propriedades a viajantes em busca de acomodações únicas e personalizadas. Fundado em 2008, o Airbnb conta com mais de 4 milhões de anfitriões, os quais receberam 1,4 bilhão de chegadas de hóspedes em quase todos os países do mundo.

Fonte: CNN Brasil

Uma das iniciativas do Airbnb é disponibilizar dados do site para algumas das principais cidades e localidades do mundo. Por meio do portal Inside Airbnb, é possível baixar uma grande quantidade de dados para desenvolver projetos e soluções de Data Science.

Havaí

O Havaí é um arquipélago composto por várias ilhas localizadas no Oceano Pacífico central. É o estado mais recente a se juntar aos Estados Unidos, tendo sido admitido em 21 de agosto de 1959.

Fonte: Wikipedia

Obtenção dos Dados

Nesta análise exploratória, os dados foram obtidos no portal Inside Airbnb. Foi utilizada a versão resumida da base de dados, a qual está descrita abaixo:

  • listings.csv - Summary information and metrics for listings in Hawaii (good for visualisations).

Análise Inicial dos Dados

Primeiros Passos

Inicialmente, foram utilizados métodos do Pandas para conduzir a análise primária do dataset, como:

  • .head , para visualizar as primeiras linhas do DataFrame;
Fonte: Autor
  • .shape , com o objetivo de verificar a quantidade de variáveis e de entradas do conjunto de dados;
Fonte: Autor
  • .dtypes , para analisar os tipos de dados das colunas.
Fonte: Autor

Verificando Valores Nulos

Por meio do método isnull, pode-se verificar algumas colunas com valores ausentes:

  • As colunas reviews_per_month e last_review apresentam pouco mais de 20% de valores faltantes;
  • A coluna license possui aproximadamente 17% dos seus valores ausentes;
  • As variáveis host_name e name possuem menos de 0,005% dos seus valores nulos.
  • As demais variáveis não possuem valores ausentes.
Fonte: Autor

Tratamento de ‘Outliers’

Foi realizado um tratamento nas variáveis price e minimum_nights devido à presença de velores discrepantes no conjunto de dados. Duas verificações rápidas foram feitas para detectação de outliers:

  • Resumo estatístico pelo método describe();
  • Análise por meio do boxplot das variáveis.

Para tratar o dataset, aplicou-se a Regra dos 1,5 * IQR. O cálculo dessa regra é feito da seguinte forma:

  • LimiteSuperior=Q3+1.5∗IQR
  • LimiteInferior=Q1−1.5∗IQR

IQR representa a diferença entre o terceiro quartil (Q3) e o primeiro quartil (Q1) do dataset.

Após a limpagem do DataFrame, notou-se que:

  • As médias das variáveis price e minimum_nights estão bem mais próximas da mediana (50%);
  • O histrograma ficou com uma melhor visualização da distribuição dos dados.
Fonte: Autor

Análise Exploratória do Dataset

Tipo de imóvel mais alugado no Airbnb

Por meio do método value_counts() , verificou-se que:

  • Quase 90% dos aluguéis do Airbnb, no Havaí, são de casas ou apartamentos inteiros;
  • Aproximadamente 10% das propriedades são quartos privativos;
  • Quartos de hotel e quartos compartilhados representam, juntos, nem 1% dos tipos de aluguéis do Havaí no Airbnb.
Fonte: Autor

Obs.: Apesar de gráficos de pizza não serem recomendados para visualização de dados, optei por utilizá-lo devido às quantidades de imóveis denominadas ‘Hotel Room’ e ‘Shared Room’. Essas categorias representam um valor muito baixo na porcentagem total dos imóveis do Airbnb e, portanto, não eram visíveis no gráfico de barras.

Preços

  • A média de preços no Havaí é de US$ 324.86 por noite;
  • No entanto, 50% dos imóveis cobram até US$ 282.00

Localidades mais caras do dataset e quantidade de imóveis para alugar por região

Constatou-se que Ewa, Koloa-Poipu, Lahaina South Kohala e Waimea-Kekaha são as regiões com preços de aluguéis mais elevados no Havaí. No entanto, em relação à quantidade de propriedades alugas por região, somente Lahaina está no top 5 dos locais com mais imóveis para aluguéis.

Fonte: Autor

Em relação ao neighbourhood_group, variável correspondente a uma subdivisão mais ampla das ilhas do Havaí, verificou-se que:

  • Maui é a subdivisão com maiores preços de aluguéis e, também, possui a quantidade mais elevada de imóveis para locação no Airbnb;
  • Kauai é o segundo local com aluguel mais elevado, todavia apresente menos propriedades para locação;
  • A região do Hawaii possui a média de preços mais baixa, embora esteja na segunda posição da maior quantidade de propriedades.
Fonte: Autor

Mapa de Calor dos Preços dos Imóveis do Havaí no Airbnb

seis ilhas principais: Kauaʻi , Oʻahu , Molokaʻi , Lānaʻi , Maui e a ilha de Havaí.

Fonte: Onde Ficar Em Sua Viagem

Abaixo, pode-se verificar propriedades mais caras na ilha Maui, em que há pontos mais laranjas e vermelhos. Essas são cores que representam, na escala do lado direito, valores de aluguéis mais elevados.

Fonte: Autor

Distribuição geoespacial das propriedades do Havaí no Airbnb

Abaixo foi criado um um gráfico utilizando a biblioteca Pydeck, o qual mostra a distribuição geográfica das propriedades no Havaí com base nas coordenadas das variáveis latitude e longitude. Assim, é possível identificar áreas com maior concentração de propriedades no arquipélago do Havaí.

Fonte: Autor

Percebe-se que:

  • Embora Honolulu seja a terceira região com maior quantidade de imóveis no arquipélago, possui uma alta concentração de propriedade, representada pela barra vermelha.
Fonte: Autor

Considerações Finais

Nesse projeto, foi realizada apenas uma análise com foco nos preços e média de noites da plataforma Airbnb no Havaí. É válido salientar que a base de dados utilizada nesse projeto é uma versão resumida e há no Inside Airbnb uma versão de dataset mais completa.

Por fim, é importante ressaltar que este foi meu primeiro projeto na área de análise de dados. Conforme avanço no aprendizado de Ciências de Dados, pretendo aprimorar esta análise de diversas formas, como, por exemplo, usar algoritmos de Machine Learning para prever tendências de preços.

Estou sempre aberto para sugestões e melhorias!

Pode entrar em contato comigo pelo:

Além disso, pode acessar meu portfólio para conferir outros projetos:

Até mais!

--

--