Aprendizaje no supervisado desmitificado

Cassie Kozyrkov
Ciencia y Datos
Published in
5 min readFeb 13, 2020

Traducido por Carlos Secada del original por Cassie Kozyrkov

El aprendizaje no supervisado puede sonar como una forma elegante de decir “deja que los niños aprendan por sí solos a no tocar el horno caliente”, pero en realidad es una técnica de búsqueda de patrones para extraer inspiración de tus datos. No tiene nada que ver con máquinas funcionando sin la supervisión de un adulto, formando sus propias opiniones sobre las cosas. ¡Desmitifiquemoslo!

Si esto te resulta familiar, el machine learning sin supervisión podría ser tu nuevo mejor amigo.

Esta publicación es accesible para principiantes, pero asume que estás familiarizado con las historias contadas hasta ahora:

¿Qué es el aprendizaje no supervisado?

¿Tu misión? Pon estas seis imágenes en dos grupos, de la forma que quieras.

Echa un vistazo a las seis instancias anteriores. ¿Qué es lo que falta? Estas fotografías no van acompañadas de etiquetas. No te preocupes, tu cerebro es bastante bueno en el aprendizaje no supervisado. Vamos a intentarlo.

Piensa en cómo te gustaría dividir estas imágenes en dos grupos. No hay respuestas equivocadas. ¿Preparado?

Agrupando los datos

En una clase en vivo, los alumnos gritan respuestas como “sentado versus de pie”, “puedo ver un piso de madera versus no puedo”, “selfie de gato versus no selfie de gato”, y así sucesivamente. Examinemos la primera respuesta.

Una forma de dividir las imágenes en dos grupos: sentado versus de pie. Bueno, “sentado” versus de pie.

Etiquetas secretas del aprendizaje no supervisado

Si definiste tus grupos en función de si los gatos están de pie, ¿cuáles son las etiquetas que generó tu sistema? El machine learning se trata de etiquetar cosas, después de todo.

Si estás pensando que “sentarse versus de pie” son las etiquetas, ¡piénsalo de nuevo! Esa es la receta (modelo) que estás usando para crear tus clústeres. Las etiquetas en el aprendizaje no supervisado son mucho más aburridas: algo como “Grupo 1 y Grupo 2” o “A o B” o “0 o 1”. Simplemente indican la pertenencia a un grupo, y no tienen un significado adicional interpretable por el ser humano (o un significado poético).

Las etiquetas de aprendizaje no supervisado simplemente indican la pertenencia al clúster. No tienen un significado más sofisticado interpretable por el ser humano, y es tan decepcionantemente aburrido como puede parecer.

Todo lo que está sucediendo aquí es que el algoritmo agrupa las cosas por similitud. La medida de similitud se especifica por la elección del algoritmo, pero ¿por qué no probar tantas variantes como sea posible? Después de todo, no sabes lo que estás buscando, y eso está bien. Piensa en el aprendizaje no supervisado como una especie de versión matemática de “Dios los cría y ellos se juntan”.

Al igual que una tarjeta Rorschach, los resultados están ahí para ayudarte a soñar. No te tomes lo que ves demasiado en serio.

¡Mira de nuevo!

Como la orgullosa madre de estos dos gatos, me entristece que en las aproximadamente 50 veces que enseñé esta lección, solo una audiencia se dio cuenta: “Gato 1 versus Gato 2”. En cambio, responde como “sentado, de pie” o “piso de madera ausente / presente” o, a veces, incluso “gatos feos versus gatos bonitos”. (Auch.)

Resulta que estas eran fotos ¡de mis dos gatos! Tal vez tu lo lograste distinguir, pero la mayoría de mis audiencias no … a menos que les dé las etiquetas (supervisar su aprendizaje). Si en primer lugar hubiera presentado los datos con etiquetas de nombres, y luego te pidiera que clasificaras la siguiente foto, apuesto a que la tarea te resultaría fácil.

Lecciones aprendidas

Imagina que soy un científico de datos novato que comienza a aprender sin supervisión y (¡por supuesto!) estoy interesada en mis dos gatos. No podré no ver a mis gatos cuando mire estos datos. Debido a que mis amores platónicos felinos son tan significativos para mí, espero que mi sistema de machine learning no supervisado pueda rescatar lo único por lo que vale la pena preocuparse aqui. ¡Uy!

Antes de esta década, las computadoras no tenian siquiera la esperanza de competir con el mejor buscador de patrones del mundo para este tipo de tarea: el cerebro humano. ¡Esto es fácil para la gente! Entonces, ¿por qué los miles de alumnos que vieron estas fotos sin etiquetar se perdieron la respuesta “Gato 1 versus Gato 2”?

Piensa en el aprendizaje no supervisado como una especie de versión matemática de “Dios los cría y ellos se juntan”.

El hecho de que algo sea interesante para mí no significa que mi buscador de patrones lo encontrará. Incluso si el buscador de patrones es fabuloso, no le dije lo que estaba buscando, entonces, ¿por qué esperaría que mi algoritmo de aprendizaje lo encontrara? ¡Esto no es magia! Si no le digo cuáles son las respuestas correctas … obtengo lo que obtengo y no me enojo. Todo lo que puedo hacer es mirar los grupos que el sistema me devuelve y ver si los encuentro inspiradores. Si no me gustan, simplemente ejecuto un algoritmo diferente sin supervisión (“Alguien más en la audiencia, dividalos de una manera diferente para mi”) una y otra vez hasta que se vea algo interesante.

Los resultados son una tarjeta Rorschach para ayudarte a soñar.

No hay garantía de que salga algo inspirador del proceso, pero no está de más intentarlo. Después de todo, explorar lo desconocido se supone que es una aventura. ¡Diviértete con eso!

En el futuro, en el próximo episodio, veremos una historia de advertencia de lo que puede salir mal si olvidas que las etiquetas son solo una inspiración y no deben tomarse demasiado en serio, y mucho menos tratarlas como interpretables por humanos. Simplemente están allí para darte ideas sobre lo que te podría gustar para zambullirte a continuación.

Si te sientes con espíritu artístico, también puedes disfrutar de mi siguiente artículo “Inteligencia Artificial: una droga que altera la percepción”, que describe cómo usar el aprendizaje no supervisado y otras tres populares técnicas en el arte de la IA.

Resumen: el aprendizaje no supervisado te ayuda a encontrar inspiración en los datos al agrupar cosas similares para ti. Hay muchas formas diferentes de definir la similitud, así que sigue probando algoritmos y configuraciones hasta que un patrón genial atrape tu atención.

Obtenga más información sobre ciencia de datos e inteligencia artificial en español aquí.

--

--

Cassie Kozyrkov
Ciencia y Datos

Head of Decision Intelligence, Google. Hello (multilingual) world! This account is for translated versions of my English language articles. twitter.com/quaesita