Explicando aprendizaje supervisado a un niño (o tu jefe)
Traducido por Carlos Secada del original por Cassie Kozyrkov
Ahora que ya sabes qué es machine learning (aprendizaje automático en español), conozcamos al tipo más fácil de los aprendizajes. Mi objetivo es hacer que los humanos de todas las estirpes y (casi) todas las edades se sientan cómodos con la jerga básica: instancia, etiqueta, función, modelo, algoritmo y aprendizaje supervisado.
Instancias
He aquí: ¡cuatro instancias!
Las instancias también se denominan ‘ejemplos’ u ‘observaciones’.
Tabla de datos
¿Cómo son estos ejemplos cuando los ponemos en una tabla? Siguiendo con la convención (porque los buenos modales son buenos), cada fila es una instancia.
¿No son bonitos los datos? Pero, ¿qué estamos viendo exactamente? Comencemos con dos columnas especiales: una ID única y, como tenemos suerte esta vez, una etiqueta (Label) para cada instancia.
Etiquetas
La etiqueta (lable en inglés) es la respuesta correcta. Es lo que nos gustaría que la computadora aprenda a mostrar cuando le mostramos una fotografía como esta, por lo que algunas personas prefieren el término ‘objetivo’, ‘salida’ o ‘respuesta’.
Características
¿Qué hay en las otras columnas? Colores de píxeles. A diferencia tuya, la computadora mira las imágenes como números, no como luces bonitas. Lo que estás viendo son los valores rojo-verde-azul para los píxeles, comenzando en la esquina superior izquierda de la imagen y avanzando hacia abajo. ¿No me crees? Intenta ingresar los valores de mi tabla de datos en esta rueda de colores RGB y ve qué colores te da. ¿Quieres saber cómo obtener los valores de píxeles de una foto? Mira, por encima de mi hombro, mi código aquí.
¿Sabes qué es genial? Cada vez que miras una fotografía digital, estás analizando datos, dando sentido a algo que está almacenado como un montón de números. No importa quién eres, ya eres un analista de datos. ¡Tu un rockstar, si, tu!
¡Ya eres un analista de datos!
Estos valores de píxeles son entradas a partir de las cuales la computadora aprenderá. No soy un gran admirador del nombre que machine learning usa para ellos (‘características’), porque esa palabra significa todo tipo de cosas en todo tipo de disciplinas. Es posible que veas personas que usan otras palabras: ‘entradas’, ‘variables’ o ‘predictores’.
Modelo y algoritmo
Nuestras características formarán la base del modelo (esa es una palabra elegante para receta) que la computadora usará para pasar de los píxeles de colores a las etiquetas.
Un modelo es solo una palabra elegante para “receta”.
Pero, ¿cómo? Ese es el trabajo del algoritmo de machine learning. Puedes ver cómo funciona tras bambalinas en mi otro artículo, pero por ahora, usemos un algoritmo existente y sorprendente: ¡tu cerebro!
Aprendizaje supervisado
Me gustaría que fueras mi sistema de machine learning. ¡Echale un vistazo a las instancias nuevamente y aprende un poco! ¿Qué es esto?
Clasifica esta imagen usando lo que aprendiiste de los ejemplos anteriores.
¿“Buki”? Sip. ¡Lo hiciste! Lo que acabas de hacer es aprendizaje supervisado, ¡increíble! Ahora has experimentado el tipo de aprendizaje más fácil que existe. Si puedes encuadrar tu problema como aprendizaje supervisado, eso será una buena idea. Los otros son más difíciles … así que veamos uno: aprendizaje no supervisado.
Resumen: Estas lidiando con aprendizaje supervisado si el algoritmo tiene la etiqueta correcta disponible para cada instancia. Más adelante, usará el modelo, o receta, para etiquetar nuevas instancias, tal como tu lo hiciste.