Una historia del Machine Learning y su aplicación en el rubro inmobiliario actual. Parte I
En los últimos años, la llamada inteligencia artificial se ha convertido en un tópico de bastante interés para los medios de comunicación como también para las empresas y medios productivos. En nuestro día a día interactuamos, muchas veces sin darnos cuenta, con sistemas que funcionan gracias a la llamada “inteligencia artificial”; el contenido personalizado que vemos en nuestras redes sociales, los asistentes virtuales con los que interactuamos en nuestros smartphones, cámaras de reconocimiento facial y un sinfín de otros elementos en nuestras vidas que utilizan y aprovechan sus ventajas.
A pesar de ser un término que llama la atención y que nos hace recordar a robots pensantes y sintientes como en las mejores películas de ciencia ficción, la realidad es que aún estamos muy lejos de aquello. Generalmente se hace la diferencia entre la “Inteligencia Artificial General” (en inglés AGI, Artificial General Inteligence) y la “Inteligencia Artificial acotada” (en inglés ANI, Artificial Narrow Inteligence). La primera, es la aspiración a que una máquina o computadora sea capaz de aprender, entender y realizar cualquier tarea humana de manera autónoma (lo que vemos en películas y libros como Yo Robot, Terminator, etc); y la segunda, IA acotada, son los sistemas y desarrollos actuales, donde se diseñan y crean algoritmos, máquinas o incluso robots, que se entrenan, aprenden y ejecutan un tarea específica y limitada (que por lo general realizamos los humanos), pero carecen de autonomía para poder realizar otra acción o la misma pero bajo otras condiciones. De hecho, existen algunos test que se pueden aplicar a un sistema de IA, que de pasarlo o cumplir se diría que la IA alcanzó un nivel humano de AGI. El más famoso y primer, es el Test de Turing [2] (en nombre a su creador, Alan Turing, el padre de la ciencia de la computación) indica que una persona debe tener una conversación a ciegas con una máquina y con un humano al mismo tiempo, tratando de identificar cuál es cuál; si la máquina logra engañar al entrevistador, entonces alcanzó un nivel humano de comunicación. Este sencillo test nos parece bastante normal, pues hoy estamos acostumbrados a mantener conversaciones con chats automatizados o asistentes virtuales, sin embargo, este fue propuesto en el año 1950 y recién en la última década se han hecho populares noticias de modelos de IA que mantienen conversaciones “entre ellos” o que incluso algunos dicen que “tienen sentimientos”. El realizar este tipo de test y de arrojar que una IA es inteligente, se vuelve en un tópico filosófico bastante extenso y en constante desarrollo, pues involucra redefinir conceptos como inteligencia, sentimientos, creatividad, pero aplicados a máquinas y no humanos.
Un término aplicado más certero para los desarrollos que comúnmente vemos (que corresponden a la Inteligencia Artificial Acotada) es el Machine Learning o ML (*). Esta área, que normalmente se cataloga dentro de la IA, utiliza principios matemáticos y de ciencias de la computación; y se especializa principalmente en desarrollar algoritmos que sean capaces de descubrir de manera automática diversos patrones en un conjunto de datos. Estas tareas por lo general son bastante naturales para un ser humano, incluso para bebés, sin embargo, que una máquina pueda realizarlos es factible hace no más de 20 años porque no existían computadores tan potentes como hoy en día. Un ejemplo clásico de esto, es un algoritmo al cuál le mostramos una imagen y sea capaz de “verla” y decirnos si corresponde a un gato o un perro. Algo que muchos animales son capaces de aprender bajo entrenamiento (llamémoslo escuela).
Así estos últimos años han aparecido muchísimos desarrollos de machine learning aplicados en diversos campos y ámbitos. Este crecimiento es gracias a dos hechos particulares: la altísima cantidad de datos generados y almacenados y el avance y desarrollo de hardware capacitado para procesar estos datos en un tiempo razonable (nos referimos principalmente a los procesadores y tarjetas gráficas). En las últimas décadas la humanidad se ha dedicado a generar de manera digital datos multimedia, como videos, imágenes, voz, texto, biométricos, georeferenciados, etc… y las grandes compañías se han dedicado a almacenarlas y procesarlas. Esta explosión de datos (para el cuál fue necesario acuñar el término big data) es principalmente el responsable del resurgimiento del machine learning.
Para desarrollar un sistema de machine learning, luego de definir su tarea a realizar, es necesario contar con una cantidad de ejemplos (datos) de calidad, para luego entrenar al sistema en la tarea a realizar. De la misma manera como un estudiante entrena (estudia) antes de una prueba. Si al estudiante le va mal, entonces puede revisar sus respuestas incorrectas y “ajustar” sus conocimientos para que la siguiente vez, pueda responder de manera correcta. Lo mismo ocurre en un algoritmo de ML supervisado (**), le entregamos una cantidad razonable (ojalá cientos de miles) de datos y le decimos que sea capaz de encontrar o aprender ciertos patrones. En el ejemplo de los perros y gatos, el algoritmo va secuencialmente aprendiendo que los gatos tienen orejas puntiagudas y la gran mayoría de los perros no, o puede darse cuenta que la lengua de ambos animales es de distinto tamaño y forma; pero todo va a depender de la calidad y variación de imágenes que se le muestre.
Luego de muchas horas, por lo general, el algoritmo ajusta sus parámetros (que finalmente son multiplicaciones y sumatorias de números) y es capaz de decirnos o realizar una tarea específica cuando le entreguemos una nueva imagen o lo que sea que haya aprendido. Ahora, ¿Qué pasaría si le entregamos una imagen de una jirafa? El algoritmo nos responderá que es un gato o perro de igual manera, pues para eso fue entrenado, pero nosotros sabemos que se está equivocando. Esa es una de las principales razones por las cuáles se dice que pertenecen a un desarrollo de IA acotado. Es muy dependiente de los datos de los cuáles aprendió y por lo mismo, su capacidad de generalizar es casi nula.
Machine learning en el rubro inmobiliario
Dentro del rubro inmobiliario, así como en la mayoría de los otros, se han desarrollado distintos algoritmos que solucionan alguna tarea específica dentro de todo el proceso de construcción hasta la recepción final de una propiedad. Desde mejoras en la producción de los materiales de construcción [1], la optimización en la búsqueda de lugares para construir, hasta la incorporación de electrodomésticos inteligentes en las viviendas.
Para un portal de anuncios inmobiliarios o de manejo de activos inmobiliarios, como goplaceit.com by capitalizarme, existen muchas oportunidades donde podemos utilizar y aprovechar las ventajas de ML. Pero para realizar un buen trabajo, siempre hay que considerar lo primero y más importante, los datos.
El fuerte de los datos de portales inmobiliarios, son los datos georeferenciados. Estos pueden ser los mismos datos que vienen de la plataforma, como publicaciones de viviendas con sus características, o pueden ser fuentes de información externas como datos demográficos, imágenes satelitales o algún otro dato que tenga alguna correspondencia territorial.
Luego de contar con diversas fuentes de datos, es importante definir el problema que se quiere resolver,el siguiente paso es preguntarse si con los datos e información que se tiene, es posible desarrollar un modelo de ML que resuelva el problema. Recordemos que para generar un buen modelo, es necesario entrenarlo antes y para eso es importante contar con una buena cantidad y calidad de datos y justamente el rubro inmobiliario se caracteriza por todo lo contrario, pocas observaciones y de mala calidad; recordemos que no son cientos de millones de ventas de casas las que se producen anualmente sino solo una decenas o centenas de miles en un país.
Existen varias orientaciones de problemas a resolver con ML dentro del rubro inmobiliario, todo va a depender de las necesidades y capacidades de la empresa. Algunos de estos son problemas transversales a muchos rubros, como por ejemplo modelos de fuga de clientes, modelos de recomendación, modelos de calidad de datos (duplicación de datos, detección de datos anómalos, etc).
Por otro lado, tenemos algunos problemas más específicos al rubro, donde varían dependiendo del tipo de empresa y datos con los que se cuentan, pero los más clásicos son: modelos de valoración de una propiedad, modelo de optimización para el diseño y construcción de propiedades, modelos de seguimiento del proceso de compra (estimación de tiempos), modelos de segmentación de usuarios por interés y lugar para habitar, entre muchos otros [3].
Para que estos modelos sean exitosos, es importante que exista una sinergia directa entre el problema que se va a resolver y los datos necesarios para solucionarlo. Por esta razón, es que las empresas del rubro han tomado una dirección “data-driven”, incorporando nuevos puestos de trabajo que han surgido gracias a este surgimiento del ML, como ingenieros de datos, científicos de datos, analistas de datos e ingenieros ML, entre otros.
En particular, en goplaceit.com, como empresa de tecnología en el rubro inmobiliario, utilizamos varios modelos con diversos propósitos. Algunos se utilizan de manera interna para mantener y velar la sanidad de nuestros datos u otros se utilizan para ofrecer un mejor servicio a nuestros usuarios, como el Asistente Inmobiliario, que en su centro tiene un modelo de ML que interactúa directamente con nuestros usuarios [4].
Valorización de propiedades
Los modelos de valorización automática (o automatic valuation models, AVM) no son algo nuevo dentro del área de estudio del machine learning. De hecho, estos modelos inicialmente son abordados desde el punto de vista econométrico, enfocándose en modelos de oferta y demanda, considerando como bienes las viviendas y todos sus efectos y consideraciones del mercado que les rodea. Luego, gracias a la existencia y levantamiento de datos de bienes raíces, como información de viviendas con sus características, precios de oferta, transacciones históricas, imágenes del interior y exterior, etc…, hicieron que este problema fuera abordado de manera automática con el desarrollo de modelos de ML.
Es más, existe un conjunto de datos (dataset) utilizado por décadas para probar diversos algoritmos: el Boston Housing Dataset [5]. Este dataset contiene alrededor de 500 observaciones de datos censales de la ciudad de Boston a nivel de “manzana” y ha sido utilizado como fuente para AVM desde los años 70 [6] hasta hoy, que es un clásico ejemplo de dataset introductorio para familiarizarse con modelos básicos de ML.
Este tema es uno de los más llamativos dentro del rubro inmobiliario para utilizar Machine Learning, ya que puede ser utilizado con diversos fines. En el futuro post trataremos en profundidad sobre los modelos de valorización de propiedades y como hemos abordado este problema en goplaceit.com.
Referencias
(*) Utilizaremos la acepción anglosajona, pues “aprendizaje de máquinas” no resulta un término muy atractivo.
(**) Acá nos estamos refiriendo a un tipo de problemas específico de ML, el aprendizaje supervisado, donde se muestran ejemplos etiquetados y el algoritmo busca aprender esas etiquetas.
[1] Alaloul, W. S. , & Qureshi, A. H. (2021). Material Classification via Machine Learning Techniques: Construction Projects Progress Monitoring. In P. L. Mazzeo, & P. Spagnolo (Eds.), Deep Learning Applications. IntechOpen. https://doi.org/10.5772/intechopen.96354
[2] A. M. Turing, I. — Computing machinery and intelligence, Mind, Volume LIX, Issue 236, October 1950, Pages 433–460, https://doi.org/10.1093/mind/LIX.236.433
[3] Conway, J. (2018) Artificial intelligence and machine learning: current applications in real estate. https://dspace.mit.edu/handle/1721.1/120609
[3] Asistente Inmobiliario, radiografía a un producto de goplaceit.com junto a BCI. Medium Urbanistik https://medium.com/goplaceit-datos/asistente-inmobiliario-radiograf%C3%ADa-a-un-producto-de-goplaceit-com-junto-a-bci-d4e207dd3f5c
[5] http://lib.stat.cmu.edu/datasets/boston
[6] Harrison, D. and Rubinfeld, D.L. (1978) Hedonic prices and the demand for clean air. J. Environ. Economics and Management 5, 81–102.