Encontrando zonas de valor em SP com machine learning

Aqui na Loft, estamos em contínua construção do nosso entendimento do mercado imobiliário, juntando dados com a experiência dos nossos parceiros e fundadores. Gostamos de exercitar nossa criatividade explorando e adaptando conceitos existentes com dados e algoritmos.
Um dos conceitos mais estabelecidos no mercado imobiliário é o de bairro. Cada pessoa tem um relacionamento diferente com esse conceito: alguns se importam pouco com qual bairro morar, desde que seja perto do trabalho; outros nasceram, cresceram e criaram raízes no mesmo bairro (alô Mooca!), ou se identificam com o estilo de vida dele (Santa Ceciliers ❤).
Na Loft, além de identificar quais bairros atendem aos diferentes perfis dos nossos clientes (que fica para um próximo post!), nos interessa entender bairros por aspectos mais funcionais, como metragem, densidade demográfica, arborização e outros. Em particular, despertou nosso interesse saber onde estão os bolsões de valor imobiliário na cidade. Ou seja, descobrir como dividir a cidade em partições tal que os preços dos imóveis em cada uma delas sejam muito parecidos.
Assim, exercitamos nosso entendimento do mercado ao criar um novo conceito de bairro focado em valor, comparando as novas linhas de bairros com as existentes.
Simplicidade e eficácia: árvores de decisão
Uma árvore de decisão é um algoritmo de machine learning que aprende através da indução de regras, construindo um particionamento da base de treino visando a redução de dispersão da sua variável alvo. No nosso caso de particionamento de bairros, esse algoritmo encaixa muito bem, pois estamos querendo justamente isso: dividir a cidade em partições (quebras a partir de dados de latitude e longitude) tal que os imóveis nessas partições apresentem baixa dispersão de preço por metro quadrado.

Explicamos intuitivamente (e visualmente, em menos de 8 minutos) como o algoritmo funciona neste vídeo do Loft Storm. De uma maneira resumida, chegamos no resultado da seguinte forma:
- Preparamos uma base de anúncios imobiliários que contém estimativas de preço por metro de apartamentos em 2018. Na Loft, além de bases de anúncios, utilizamos diversas outras fontes de dados para precificação, incluindo fontes mais atualizadas e precisas como matrículas e transações no nosso marketplace. Para os propósitos do nosso exercício, contudo, os dados coletados são suficientes.
- Cada linha na nossa base de dados é um prédio, contendo a mediana do preço por metro dos apartamentos anunciados no prédio:

- Aplicamos uma transformação de rotação nos dados de latitude e longitude. Assim a árvore pode fazer quebras diagonais.

- Ajustamos a árvore nos lat-longs rotacionados, com a restrição de termos no mínimo 200 prédios por partição.

- Publicamos o resultado usando o kepler.gl, que nos permite enxergar as partições e o preço por metro médio da partição.
Resultados
Abaixo publicamos o mapa com os resultados, onde você pode alternar entre a camada dos clusters (partições) e preço médio por cluster. Vale ressaltar novamente que usamos uma fonte de dados de anúncios de 2018. Portanto, os preços nesse mapa podem não refletir exatamente os preços de mercado. Apesar disso, a comparação entre bairros mantém válida a utilização dessa base para esse exercício.
Exemplo: Jardins
Cada um tem uma definição um pouco diferente, mas é comum nos referirmos como “Jardins” os bairros que se situam entre a Avenida Paulista, a Rua Estados Unidos, a Avenida Rebouças e a Avenida Brigadeiro Luiz Antônio. A Loft nasceu nesses bairros. Nosso primeiro escritório e primeiros apartamentos transacionados foram nessa área. Temos, portanto, muito carinho por essa região, e muita experiência operando nela. Geralmente avaliamos o comportamento dos nossos algoritmos nos Jardins para ver se eles “fazem sentido”.
É comum dividir os Jardins em dois bairros diferentes:
- Jardim América, entre a Avenida Rebouças e a Avenida Nove de Julho
- Jardim Paulista, entre a Avenida Nove de Julho e a Avenida Brigadeiro Luiz Antônio
O algoritmo, em contrapartida, dividiu os Jardins em 4 partições diferentes, dividindo tanto o Jardim América quanto o Jardim Paulista em dois (a linha central passa na Alameda Casa Branca, quase na divisão dos dois bairros):

Quando mudamos a visualização para o preço por metro de cada uma das partições, vemos um padrão de valoração mais alta na região do Jardim América e nas proximidades da Rua Estados Unidos, padrão que se ouvia falar muito no mercado, e agora foi descoberto e confirmado por meio de dados :).

Conclusão
Por fim, deixamos essa última visualização do preço médio por partição em São Paulo. Vemos diversos padrões interessantes: Vila Nova Conceição e uma parte de Moema se juntando em uma única zona, diferentes partições em Higienópolis, aumento de preços ao redor do Parque Ibirapuera, uma mini-zona de alto valor entre Consolação e Bela Vista, e outros.

Fique a vontade para explorar o mapa que disponibilizamos anteriormente e criar seu entendimento do mercado junto com a gente!
Seguimos usando ciência de dados para lidar com a complexidade do mercado imobiliário, reinventar o consumo de moradia, e eliminar, para os nossos clientes, a fricção no processo de mudar de lar. Mudar faz parte da gente!
Ficou com vontade de fazer parte da Loft?
Se inscreva nas nossas vagas! — https://jobs.lever.co/loft/