Aprendizaje por refuerzo (RL) — Capítulo 2: Introducción — Parte 1: ¿Qué es el aprendizaje por refuerzo?

Joan Cerretani
11 min readDec 5, 2023

--

Foto de Karolina Kołodziejczak en Unsplash

Bienvenidos a la primera parte de este segundo capítulo de la serie sobre aprendizaje por refuerzo.

En este capítulo exploraremos el concepto de aprendizaje por refuerzo, que se enfoca en la adquisición de conocimiento sobre cómo tomar decisiones óptimas en un entorno dinámico a través de la interacción con dicho entorno y la maximización de recompensas. También veremos los elementos fundamentales del aprendizaje por refuerzo, incluyendo la política, la función de recompensa, la función de valor y el modelo del entorno, así como las diferencias entre el aprendizaje basado en modelos y el aprendizaje sin modelos.

¿Qué es el aprendizaje por refuerzo?

El Aprendizaje por Refuerzo es un enfoque fundamental en el ámbito de la ciencia de datos que se centra en la adquisición de conocimiento sobre cómo tomar decisiones óptimas en un entorno dinámico. A diferencia de otros métodos de aprendizaje automático, como el aprendizaje supervisado, donde se proporcionan ejemplos etiquetados para el entrenamiento, el aprendizaje por refuerzo se basa en la idea de que un agente, que toma decisiones, debe aprender a tomar acciones adecuadas en situaciones específicas para maximizar una señal de recompensa numérica.

En este proceso de aprendizaje, el agente no recibe instrucciones explícitas sobre qué acciones tomar, sino que debe descubrir qué acciones generan la máxima recompensa a través de la exploración y la experimentación. Esto implica que el agente puede cometer errores en el camino, ya que debe probar diferentes acciones para determinar cuáles son las más efectivas.

Lo que hace que el aprendizaje por refuerzo sea aún más desafiante y emocionante es que las acciones tomadas pueden influir no solo en la recompensa inmediata, sino también en las situaciones futuras y, a través de ellas, en todas las recompensas posteriores. Esta característica conlleva la necesidad de planificar a largo plazo y considerar las consecuencias a largo plazo de las decisiones actuales.

Comparado con el aprendizaje supervisado, que se basa en ejemplos proporcionados por un supervisor externo, el aprendizaje por refuerzo se adapta especialmente bien a problemas de interacción donde obtener ejemplos precisos del comportamiento deseado es impracticable o costoso. En situaciones desconocidas o en constante evolución, un agente de aprendizaje por refuerzo debe depender de su propia experiencia y aprendizaje continuo.

Uno de los desafíos cruciales en el aprendizaje por refuerzo es el equilibrio entre la exploración y la explotación. Para maximizar la recompensa, el agente debe preferir acciones que haya probado y encontrado efectivas en el pasado (explotación). Sin embargo, también debe estar dispuesto a probar nuevas acciones para mejorar su rendimiento futuro (exploración). Este delicado equilibrio entre aprender de la experiencia pasada y experimentar nuevas posibilidades es fundamental para el éxito del aprendizaje por refuerzo y lo distingue de otros enfoques de aprendizaje automático.

Modelos de aprendizaje supervisado, no supervisado y por refuerzo.

El aprendizaje por refuerzo representa una metodología innovadora en el ámbito de la inteligencia artificial, particularmente en el desarrollo de modelos virtuales. Para ilustrar su potencial, consideremos un caso teórico denominado “Aprender a correr”, donde el objetivo es enseñar a un modelo musculo-esquelético (vamos, un robot), virtual a correr. Aunque técnicamente factible, como lo demuestran investigaciones en instituciones como Stanford, programar exhaustivamente todos los movimientos y anticipar cada patrón de caminata implica una labor intensiva para programadores expertos. Una alternativa sería el aprendizaje supervisado, pero este enfoque requiere la acumulación y análisis de datos extensivos sobre la posición del cuerpo y las acciones correspondientes, lo cual puede ser un desafío sin el equipo especializado adecuado.

En contraste, el aprendizaje por refuerzo ofrece una solución más eficiente. Este método no depende de datos de entrada y salida específicos, como en el aprendizaje supervisado. Más bien, se centra en la interacción con un entorno, en este caso, el modelo musculo-esquelético virtual. La clave del aprendizaje por refuerzo radica en la utilización de recompensas para incentivar o desalentar ciertas acciones del agente, en función de su rendimiento. En nuestro ejemplo, el agente recibe recompensas basadas en la distancia recorrida en un tiempo determinado, incentivando así la velocidad. A través de un proceso de prueba y error, y la búsqueda activa de maximizar recompensas, el agente aprende eventualmente a correr de manera eficiente.

Este método refleja cómo aprendemos muchas habilidades desde la infancia hasta la adultez, a menudo sin instrucciones explícitas. Tomemos, por ejemplo, el aprendizaje de montar en bicicleta. No se provee a un niño de un manual detallado; en cambio, aprende a través de la experimentación y el ajuste de sus acciones en respuesta a las consecuencias positivas o negativas. Esta es la esencia del aprendizaje por refuerzo: no se requieren ejemplos específicos o conocimiento previo del problema. Basta con un entorno interactivo para que el agente aprenda y resuelva tareas, a menudo superando el desempeño humano.

La eficacia de esta metodología en situaciones complejas y dinámicas, como en el caso del modelo musculo-esquelético, destaca su relevancia y potencial en la vanguardia de la ciencia de datos y la inteligencia artificial.

Las diferencias entre aprendizaje supervisado, no supervisado y por refuerzo se pueden resumir en cuatro puntos:

  • Estático vs Dinámico: El objetivo del aprendizaje supervisado y no supervisado es buscar y aprender sobre patrones en los datos de entrenamiento. Estos patrones son estáticos en el sentido de que los datos, la información, no cambia durante el entrenamiento. El aprendizaje por refuerzo por otro lado, se trata de desarrollar una política que le diga a un agente qué acción elegir en cada paso, haciéndolo más dinámico. El agente interactúa con el entorno y la forma en lo que lo hace determina el comportamiento del mismo.
  • Sin respuesta correcta explícita: En el aprendizaje supervisado, los datos de entrenamiento dan la respuesta correcta, tenemos una señal de entrada y una señal de salida objetivo explícita. En el aprendizaje por refuerzo, la respuesta correcta no se da explícitamente, en cambio, el agente necesita aprender por ensayo y error. La única referencia es la recompensa que obtiene después de realizar una acción, que le dice al agente cuándo está progresando o cuándo ha fallado.
  • Requiere exploración: Un agente de aprendizaje reforzado debe encontrar el equilibrio adecuado entre explorar el entorno, buscar nuevas formas de obtener recompensas y explotar las fuentes de recompensa que ya ha descubierto. Por el contrario, los sistemas de aprendizaje supervisados y no supervisados toman la respuesta directamente de los datos de entrenamiento sin tener que explorar otras respuestas.
  • Proceso de decisión múltiple: El aprendizaje por refuerzo es un proceso de decisiones múltiples, es decir, forma una cadena de toma de decisiones a través del tiempo necesario para terminar un trabajo específico. Por el contrario, el aprendizaje supervisado es un proceso de decisión única: una instancia, una predicción.

Elementos del aprendizaje por refuerzo

El aprendizaje por refuerzo se compone de cuatro elementos fundamentales, además del agente en sí y el entorno o ambiente: la política, la función de recompensa, la función de valor y, en algunos casos, un modelo del entorno.

La política establece la estrategia que nuestro agente seguirá, es decir, qué acciones tomará en cada momento. En términos generales, una política es un mapeo de los estados percibidos del entorno a las acciones que deben realizarse cuando se encuentra en esos estados.

La política puede ser representada de diversas maneras, ya sea como una función, una tabla de pares estado-acción o incluso como un proceso de búsqueda complejo. Sin embargo, es el corazón del agente de aprendizaje por refuerzo, ya que define su comportamiento y su identidad.

La función de recompensa define el objetivo del problema. Asigna una recompensa a cada estado del entorno, lo que permite medir cuán favorable o desfavorable es estar en ese estado específico. La función de recompensa determina qué eventos son considerados beneficiosos o perjudiciales para el agente.

El objetivo principal de un agente de aprendizaje por refuerzo es maximizar la suma total de recompensas percibidas a lo largo de su interacción con el entorno, buscando encontrar la política óptima. Por ejemplo, si una acción seleccionada por la política conduce a una recompensa baja, la política puede adaptarse para elegir una acción diferente en situaciones similares en el futuro.

Mientras que la función de recompensa refleja lo que es bueno en un sentido inmediato, la función de valor se centra en lo que es beneficioso a largo plazo. En términos generales, el valor de un estado es la cantidad total de recompensa que un agente espera acumular en el futuro, comenzando desde ese estado particular.

Un ejemplo ilustrativo es un estado que puede ofrecer una recompensa inmediata baja, pero aún así tiene un valor alto porque generalmente lleva a otros estados que proporcionan recompensas elevadas. En otras palabras, la función de valor evalúa la conveniencia de estar en un estado dado en función de las recompensas anticipadas a lo largo del tiempo.

En el contexto de una partida de ajedrez, consideremos la siguiente posición en el tablero. Si optamos por llevar a cabo el movimiento señalado por la flecha, estaríamos dispuestos a sacrificar nuestra dama, lo que inicialmente parece resultar en una recompensa inmediata negativa. No obstante, es fundamental comprender que, independientemente de la elección que realice el rey oponente en respuesta a este movimiento, el desenlace final será el temido “jaque mate”.

En resumen, el aprendizaje por refuerzo se basa en la interacción de un agente con su entorno a través de una política, guiado por una función de recompensa que define sus objetivos inmediatos, y evalúa la utilidad de los estados a través de una función de valor que considera las recompensas a largo plazo. Estos elementos son cruciales para que el agente tome decisiones óptimas y aprenda a maximizar su rendimiento en el entorno.

En un contexto de ciencia de datos y aprendizaje por refuerzo, es crucial comprender la relación entre las recompensas y los valores, ya que esto es fundamental para tomar decisiones informadas y desarrollar estrategias efectivas.

Las recompensas, en esencia, representan la gratificación inmediata que obtenemos por realizar ciertas acciones en un entorno dado. Son las respuestas directas que recibimos del entorno en función de nuestras acciones. Por otro lado, los valores son estimaciones que hacemos sobre las recompensas futuras que podríamos obtener al realizar esas acciones. Los valores son esenciales porque nos permiten planificar y tomar decisiones a largo plazo en lugar de simplemente perseguir recompensas inmediatas.

Es importante destacar que, sin recompensas, no tendríamos la base para estimar la función de valor. La estimación de la función de valor, sin embargo, presenta un desafío significativo. A diferencia de las recompensas, que son proporcionadas por el entorno y son constantes, la función de valor depende de la política que seguimos. La política se refiere a la estrategia que utilizamos para tomar decisiones, y las acciones que tomamos en un momento dado afectan directamente a los valores futuros. En otras palabras, la función de valor es dinámica y cambia según nuestras elecciones.

No obstante, es importante señalar que no todos los enfoques de aprendizaje por refuerzo se centran en la estimación de la función de valor. Por ejemplo, existen métodos de búsqueda, como los algoritmos genéticos, que exploran directamente el espacio de políticas sin depender de funciones de valor. Estos métodos, conocidos como métodos evolutivos, se asemejan al proceso de evolución biológica, donde los organismos desarrollan comportamientos habilidosos a lo largo del tiempo sin aprender individualmente. En lugar de estimar valores, estos enfoques buscan encontrar políticas óptimas directamente a través de procesos de selección y mutación.

El componente final es el denominado “modelo del entorno”. Este componente desempeña un papel crucial al emular el comportamiento del entorno en el que opera el agente. Por ejemplo, dada una situación o estado particular y una acción tomada por el agente, el modelo del entorno tiene la capacidad de anticipar cuál será el próximo estado resultante y cuál será la recompensa asociada a esta acción. Estos modelos son esenciales en el proceso de planificación, que implica la toma de decisiones considerando diversas situaciones futuras antes de que estas se materialicen.

Existen dos enfoques principales para obtener un modelo del entorno: uno es el modelo “dado” y el otro es el modelo “aprendido”. Veamos con más detalle estos dos casos.

En el caso de un modelo del entorno “dado”, el agente posee un conocimiento previo sobre las reglas y el comportamiento del entorno en el que opera. Esto equivale a tener acceso a un conjunto de reglas definidas que describen cómo se desenvuelve el entorno. Por ejemplo, en el contexto del ajedrez, el agente conoce todas las reglas del juego. Con este conocimiento, antes de tomar cada decisión, el agente puede dedicar tiempo a jugar en un “tablero de práctica” mental, elaborando estrategias y considerando diversas posibilidades antes de tomar su movimiento final en el juego real contra su oponente.

En contraste, en el caso de un modelo del entorno “aprendido”, el agente adquiere el conocimiento del entorno a través de la experiencia. Esto implica que el agente realiza simulaciones mentales, imaginando diferentes situaciones y resultados posibles basados en sus experiencias previas. En esencia, el agente construye gradualmente un modelo del entorno a medida que acumula conocimiento a través de la interacción con dicho entorno.

Es importante destacar que si bien tener un modelo del entorno, ya sea dado o aprendido, puede ser beneficioso en ciertos casos, no es un requisito estricto para que un sistema de aprendizaje por refuerzo funcione de manera efectiva. De hecho, la mayoría de los modelos de aprendizaje por refuerzo que se explorarán en este contexto no dependen necesariamente de la presencia de un modelo del entorno. El éxito en el aprendizaje por refuerzo puede lograrse de diversas maneras, y la elección del enfoque adecuado depende de la naturaleza del problema y de los recursos disponibles.

En el aprendizaje basado en modelos, el agente explota un modelo aprendido o dado previamente para realizar la tarea en cuestión, mientras que en el aprendizaje sin modelos, el agente simplemente confía en alguna experiencia de prueba y error para la selección de acciones.

Asuma la tarea de decidir qué ruta tomar de camino a casa desde el trabajo un viernes por la noche. En el cálculo basado en modelos, busca a través de un modelo aprendido previamente (es decir, tiene un mapa y sigue cada ruta según el modelo, por ejemplo cuando decidimos que ruta tomar basados en la información del tráfico que nos da el GPS) mientras que en el cálculo sin modelo simplemente actúa basándose en una experiencia que sugiere que evitar la autopista normalmente se llega a casa más rápido.

En resumen, la diferencia entre aprendizaje basado en modelos (Model-Based) y no (Model-Free), es que en el aprendizaje basado en modelos puedo predecir el resultado final de mi decisión antes de tomarla. Tengo un conocimiento completo del entorno. Mientras que en los sistemas Model-Free no tengo conocimiento del entorno, voy aprendiendo las mejores decisiones a partir de prueba y error.

Y hasta aquí llegamos, en la próxima parte estudiaremos la interfaz agente-entorno, como calcular los objetivos, recompensas y retornos y estudiaremos la propiedad de Markov.

Lecturas sugeridas

Y también puedes visitar el resto de artículos sobre Aprendizaje por refuerzo:

Aprendizaje por refuerzo (RL)

14 stories

--

--

Joan Cerretani

Soy Joan Cerretani, Lic. en Ciencias Físicas de la UBA y Mtr. en Ciencia de Datos.