Aprendizaje no supervisado desmitificado
Traducido por Carlos Secada del original por Cassie Kozyrkov
El aprendizaje no supervisado puede sonar como una forma elegante de decir “deja que los niños aprendan por sí solos a no tocar el horno caliente”, pero en realidad es una técnica de búsqueda de patrones para extraer inspiración de tus datos. No tiene nada que ver con máquinas funcionando sin la supervisión de un adulto, formando sus propias opiniones sobre las cosas. ¡Desmitifiquemoslo!
Esta publicación es accesible para principiantes, pero asume que estás familiarizado con las historias contadas hasta ahora:
- Machine learning se trata de etiquetar cosas usando ejemplos.
- Si entrenas a tu sistema dandolé las respuestas que estás buscando, estás haciendo aprendizaje supervisado.
- Para comenzar con el aprendizaje supervisado, necesitas saber qué etiquetas deseas. (No funciona así con no supervisado).
- La jerga estándar incluye instancia, función, etiqueta, modelo y algoritmo.
¿Qué es el aprendizaje no supervisado?
Echa un vistazo a las seis instancias anteriores. ¿Qué es lo que falta? Estas fotografías no van acompañadas de etiquetas. No te preocupes, tu cerebro es bastante bueno en el aprendizaje no supervisado. Vamos a intentarlo.
Piensa en cómo te gustaría dividir estas imágenes en dos grupos. No hay respuestas equivocadas. ¿Preparado?
Agrupando los datos
En una clase en vivo, los alumnos gritan respuestas como “sentado versus de pie”, “puedo ver un piso de madera versus no puedo”, “selfie de gato versus no selfie de gato”, y así sucesivamente. Examinemos la primera respuesta.
Etiquetas secretas del aprendizaje no supervisado
Si definiste tus grupos en función de si los gatos están de pie, ¿cuáles son las etiquetas que generó tu sistema? El machine learning se trata de etiquetar cosas, después de todo.
Si estás pensando que “sentarse versus de pie” son las etiquetas, ¡piénsalo de nuevo! Esa es la receta (modelo) que estás usando para crear tus clústeres. Las etiquetas en el aprendizaje no supervisado son mucho más aburridas: algo como “Grupo 1 y Grupo 2” o “A o B” o “0 o 1”. Simplemente indican la pertenencia a un grupo, y no tienen un significado adicional interpretable por el ser humano (o un significado poético).
Todo lo que está sucediendo aquí es que el algoritmo agrupa las cosas por similitud. La medida de similitud se especifica por la elección del algoritmo, pero ¿por qué no probar tantas variantes como sea posible? Después de todo, no sabes lo que estás buscando, y eso está bien. Piensa en el aprendizaje no supervisado como una especie de versión matemática de “Dios los cría y ellos se juntan”.
Al igual que una tarjeta Rorschach, los resultados están ahí para ayudarte a soñar. No te tomes lo que ves demasiado en serio.
¡Mira de nuevo!
Como la orgullosa madre de estos dos gatos, me entristece que en las aproximadamente 50 veces que enseñé esta lección, solo una audiencia se dio cuenta: “Gato 1 versus Gato 2”. En cambio, responde como “sentado, de pie” o “piso de madera ausente / presente” o, a veces, incluso “gatos feos versus gatos bonitos”. (Auch.)
Lecciones aprendidas
Imagina que soy un científico de datos novato que comienza a aprender sin supervisión y (¡por supuesto!) estoy interesada en mis dos gatos. No podré no ver a mis gatos cuando mire estos datos. Debido a que mis amores platónicos felinos son tan significativos para mí, espero que mi sistema de machine learning no supervisado pueda rescatar lo único por lo que vale la pena preocuparse aqui. ¡Uy!
Antes de esta década, las computadoras no tenian siquiera la esperanza de competir con el mejor buscador de patrones del mundo para este tipo de tarea: el cerebro humano. ¡Esto es fácil para la gente! Entonces, ¿por qué los miles de alumnos que vieron estas fotos sin etiquetar se perdieron la respuesta “Gato 1 versus Gato 2”?
Piensa en el aprendizaje no supervisado como una especie de versión matemática de “Dios los cría y ellos se juntan”.
El hecho de que algo sea interesante para mí no significa que mi buscador de patrones lo encontrará. Incluso si el buscador de patrones es fabuloso, no le dije lo que estaba buscando, entonces, ¿por qué esperaría que mi algoritmo de aprendizaje lo encontrara? ¡Esto no es magia! Si no le digo cuáles son las respuestas correctas … obtengo lo que obtengo y no me enojo. Todo lo que puedo hacer es mirar los grupos que el sistema me devuelve y ver si los encuentro inspiradores. Si no me gustan, simplemente ejecuto un algoritmo diferente sin supervisión (“Alguien más en la audiencia, dividalos de una manera diferente para mi”) una y otra vez hasta que se vea algo interesante.
Los resultados son una tarjeta Rorschach para ayudarte a soñar.
No hay garantía de que salga algo inspirador del proceso, pero no está de más intentarlo. Después de todo, explorar lo desconocido se supone que es una aventura. ¡Diviértete con eso!
En el futuro, en el próximo episodio, veremos una historia de advertencia de lo que puede salir mal si olvidas que las etiquetas son solo una inspiración y no deben tomarse demasiado en serio, y mucho menos tratarlas como interpretables por humanos. Simplemente están allí para darte ideas sobre lo que te podría gustar para zambullirte a continuación.
Si te sientes con espíritu artístico, también puedes disfrutar de mi siguiente artículo “Inteligencia Artificial: una droga que altera la percepción”, que describe cómo usar el aprendizaje no supervisado y otras tres populares técnicas en el arte de la IA.
Resumen: el aprendizaje no supervisado te ayuda a encontrar inspiración en los datos al agrupar cosas similares para ti. Hay muchas formas diferentes de definir la similitud, así que sigue probando algoritmos y configuraciones hasta que un patrón genial atrape tu atención.
Obtenga más información sobre ciencia de datos e inteligencia artificial en español aquí.