Análise de Dados de Imóveis em King County com Python

Nicolas Doege
7 min readMay 13, 2022

--

Hello, world!

Eu sou o Nicolas, um entusiasta da área de Análise e Ciência de Dados, uma vez que percebi o quão importante os dados são no nosso dia-a-dia e a importância deles para as tomadas de decisões por parte das mais variadas entidades que acabam afetando nossas vidas.

Comecei meus estudos nessa área em 2022, fazendo alguns cursos de Lógica de Programação, o excepcional CS50 de Harvard e ainda, cursos voltados para Python e Análise de Dados.

Porém, percebi que para realmente absorver o que estava aprendendo, eu precisava pôr em prática toda a teoria, de modo que decidi pegar um dataset disponível no Kaggle e iniciar meu primeiro projeto.

Obtenção dos Dados

O dataset que eu escolhi contém o preço de venda de casas em King County entre maio de 2014 e maio de 2015.

Apenas a título de curiosidade, King County é um condado do Estado de Washington, localizado na região Noroeste dos Estados Unidos. De acordo com o 2020 United States census, Seattle é a cidade mais populosa de King County, que por sua vez é o 13° condado mais populoso dos Estados Unidos.

O dataset possui 21.613 propriedades e 21 variáveis (colunas) dos tipos int, object e float.

Análise Inicial dos Dados e Limpeza

Iniciando a análise do dataset, trago as 05 primeiras casas:

De início, podemos ver que temos variáveis (colunas) como price, indicando o preço da casa, bedrooms, bathrooms e floors, indicando o número de quartos, banheiros e andares, respectivamente, yr_built indicando o ano de construção, entre outras.

Ainda, podemos ver que as datas constantes da variável date estão formatadas como um object, sendo que de pronto já fiz a conversão para datetime.

No tocante à limpeza dos dados, removi duas variáveis que não seriam utilizadas na análise (sqft_living15 e sqft_lot15), bem como removi os id’s duplicados, reduzindo o número de casas para 21.436.

Análise Exploratória dos Dados

Com os dados limpos e prontos para análise, podemos extrair algumas informações a título de curiosidade sobre as casas da região de King County.

Primeiro, podemos verificar que a casa mais barata da região custa $ 75.000,00, enquanto a casa mais cara custa $ 7.700.000,00.

Olhando para dados descritivos, as casas tem em, na média, 3 quartos, 2 banheiros e somente 1 andar, permitindo concluir que as casas são mais para famílias.

Pelo fato de King County ter alguns lagos no seu território, temos algumas casas com vista para a água (variável waterfront), num total de 163, o que representa menos de 1% do total de casas do dataset.

O fato de ter vista para a água acaba refletindo no preço das casas, já que, enquanto o preço mediano das casas sem vista para a água é de $ 450.000,00, o preço mediano das casas com vista para a água é de $ 1.400.000,00.

Enfim, esses são apenas alguns dados e informações que podemos extrair com alguns comandos de Python, mas vamos seguir com as perguntas de negócio e hipóteses.

Perguntas de Negócio e Hipóteses

Feita essa análise inicial dos dados e demonstradas algumas informações sobre o dataset, resolvi elaborar algumas perguntas fictícias de negócio, bem como algumas hipóteses para serem validadas (ou não), com o intuito de simular uma demanda do dia-a-dia de um Analista de Dados.

As perguntas de negócio sugeridas foram:

  1. Quais casas disponíveis para comprar estão/estavam com um ‘bom preço’?
  2. Uma vez efetuada a compra de uma casa, qual o melhor momento para vendê-la? Por qual preço?

Já as hipóteses a serem testadas foram:

  1. Casas que possuem vista para a água são 30% mais caras
  2. Casas com data de construção anterior a 1955 são 50% mais baratas
  3. Casas sem porão possuem área total 40% maior que as casas sem porão
  4. O crescimento dos preços das casas YoY (Year over Year) é de 10%
  5. Entre as casas construída antes de 1955, as renovadas têm um preço 10% maior

Premissas

Antes de prosseguir, importante destacar que para responder a segunda pergunta de negócio, especificamente sobre o melhor momento para vender uma casa, fiz uma análise com base nas estações do ano, sendo que considerei Verão e Primavera como ‘Summer’ e Inverno e Outono como ‘Winter’.

Soluções

Feita essa consideração, vamos para os insights que descobri.

Respostas às Perguntas de Negócio

  1. Quais casas disponíveis para comprar estão/estavam com um ‘bom preço’?

Para responder essa pergunta, fiz uma comparação entre o preço da casa e a mediana do preço dos imóveis na região em que ela se encontra (baseado no ‘zipcode’ ou código postal das casas), criando uma variável/coluna com o preço mediano de cada região.

Dessa forma, pude visualizar quais casas foram vendidas com valor superior ou inferior ao preço mediano da região.

Para dar a recomendação de Compra de determinada casa, a mesma deve estar com um preço inferior ao preço mediano da região, bem como sua condição (variável/coluna ‘condition’) deveria ser igual ou superior a 3 (os valores dessa variável variam entre 1 e 5).

Assim, das 21.436 casas do dataset, temos 10.499 imóveis com a recomendação de comprar, levando em consideração esse filtro de preço e condição.

2. Uma vez efetuada a compra de uma casa, qual o melhor momento para vendê-la? Por qual preço?

Aqui, primeiro fiz uma análise para verificar se as estações do ano afetam o preço das casas, sendo que pude verificar que no Verão o valor das casas tende a ser maior que a mediana do preço das casas na região em que ela se encontra, enquanto no inverno ocorre o oposto.

Depois, com base nas casas que foram anunciadas durante o verão e que estavam com o preço acima da mediana do preço das casas da região, foi verificado que, na mediana, as casas estavam sendo anunciados com um preço 24.5% maior que as casas da região.

Assim, com base nas casas com recomendação de compra, foi sugerido um possível preço de venda mediante a aplicação desse adicional de 24.5%, calculando o possível lucro em cada operação.

Hipóteses

  1. Casas que possuem vista para a água são 30% mais caras

FALSA, vez que na mediana os imóveis com vista para água são 300% mais caros que imóveis sem vista para água.

2. Casas com data de construção anterior a 1955 são 50% mais baratas

FALSA, na mediana não há diferença de preço entre imóveis construídos antes e depois de 1955.

Considerando “yes” como o grupo de imóveis construídos antes de 1955

3. Casas sem porão possuem área total 40% maior que as casas sem porão

FALSA, na mediana os imóveis sem porão possuem uma área total só 2% maior que imóveis sem porão.

4. O crescimento dos preços das casas YoY (Year over Year) é de 10%

FALSA, na mediana a evolução dos preços de 2014 para 2015 (YoY) foi de somente 0.5%.

5. Entre as casas construída antes de 1955, as renovadas têm um preço 10% maior

VERDADEIRA, entre os imóveis construídos antes de 1955 os que foram renovados tem um preço 35% maior em comparação aos imóveis não renovados.

Considerando “yes” como o grupo de imóveis construídos antes de 1955

Conclusões

Bom, esse foi um projeto visando trazer alguns insights sobre os imóveis disponíveis para compra em King County, Washington, EUA.

As respostas para as perguntas de negócio são apenas sugestões com base na análise de dados, mas que servem de fundamento para a realização de negócios que podem trazer bons resultados, sendo demonstrado os imóveis com ‘bom preço’ e sugerido um possível preço de venda levando em conta a estação do ano.

De igual forma, as hipóteses aqui testadas também trazem informações importantes para a tomada de decisões e forma de condução de negócios, principalmente a última, onde se demonstrou que os imóveis antigos renovados têm um valor maior em comparação aos imóveis antigos não renovados.

Você pode conferir o projeto com mais detalhes no meu Github, ou visualizar o dashboard interativo no Streamlit.

Sigam-me para acompanhar mais textos sobre ciência e análise de dados, e se quiserem, conectem-se comigo no Linkedin.

Até a próxima!

--

--