Aprendizaje por refuerzo (RL) — Capítulo 2: Introducción — Parte 2: Recompensas, retornos y Markov

14 min readDec 5, 2023

Y continuamos el segundo capitulo sobre aprendizaje por refuerzo.

En esta segunda parte vamos a ver la interfaz agente-entorno, la importancia de las recompensas en la toma de decisiones del agente y la propiedad de Markov en los procesos de decisión de Markov (MDP).

La interfaz agente-entorno

La interacción entre el agente y el entorno es un concepto fundamental en aprendizaje por refuerzo. En este proceso continuo, el agente toma decisiones en forma de acciones, y el entorno responde a estas acciones, presentando nuevas situaciones al agente. Además, el entorno proporciona recompensas, que son valores numéricos que el agente busca maximizar a lo largo del tiempo.

Esta interacción entre el agente y el entorno se desarrolla en una secuencia de pasos de tiempo discretos, que podemos representar como t=0,1,2,…,T. En cada paso de tiempo t, el agente recibe una representación del estado actual del entorno, que denotamos como sₜ, y utiliza esta información para tomar una acción, representada como a. Posteriormente, como resultado de esta acción, el agente recibe una recompensa, denotada como r, y el entorno evoluciona hacia un nuevo estado, sₜ₊₁.

En cada uno de estos pasos de tiempo, el agente implementa una política, que es un mapeo que asigna probabilidades a cada una de las posibles acciones que puede tomar. Esta política se representa comúnmente con la letra griega π. Los métodos de aprendizaje por refuerzo se enfocan en cómo el agente ajusta su política a lo largo del tiempo en función de su experiencia, con el objetivo de maximizar la acumulación total de recompensas a largo plazo.

Es importante destacar que las acciones pueden variar en complejidad, desde acciones de control de bajo nivel, como ajustar los voltajes de los motores de un brazo robótico, hasta decisiones de alto nivel, como decidir si moverse hacia la izquierda o la derecha. De manera similar, los estados pueden tomar diversas formas, ya sea que estén completamente determinados por lecturas de sensores de bajo nivel o representen descripciones más abstractas de objetos y características en el entorno. Esta diversidad en las acciones y estados es una característica clave en la modelización de problemas de aprendizaje por refuerzo.

En resumen, cualquier problema de aprendizaje reforzado puede reducirse a tres señales que se transmiten entre un agente y su entorno: una señal para representar las elecciones hechas por el agente (las acciones), una señal para representar la base sobre la cual se hacen las elecciones (los estados) y una señal para definir el objetivo del agente (las recompensas). Por supuesto, los estados y acciones particulares varían mucho de una aplicación a otra, y la forma en que se representan puede afectar en gran medida el rendimiento.

Objetivos y recompensas

El propósito principal del agente es optimizar la cantidad total de recompensa que obtiene a lo largo de su interacción con el entorno. Esto implica no solo maximizar la gratificación inmediata, sino también maximizar la recompensa acumulativa a largo plazo.

En el contexto del aprendizaje por refuerzo, una característica fundamental es la utilización de una señal de recompensa para formalizar el concepto de objetivo. Esta característica distingue en gran medida al aprendizaje por refuerzo de otras ramas de la inteligencia artificial. Para comprender mejor este concepto, examinemos ejemplos de cómo se ha aplicado o podría aplicarse en diversas situaciones.

Tomemos, por ejemplo, el proceso de enseñar a un robot a caminar. En este escenario, los investigadores han diseñado sistemas en los que el robot recibe una recompensa en cada paso de tiempo, la cual es proporcional al avance que logra en su trayectoria hacia adelante. Este enfoque motiva al robot a perfeccionar su habilidad para caminar de manera efectiva.

Otro ejemplo ilustrativo es la tarea de enseñar a un robot a escapar de un laberinto. En este caso, la recompensa asignada generalmente es nula hasta que el robot logra escapar del laberinto, momento en el cual se convierte en una recompensa positiva, generalmente igual a +1. Un enfoque alternativo en este contexto es asignar una recompensa de -1 por cada paso de tiempo que el robot necesita antes de encontrar la salida. Este enfoque incentiva al agente a escapar lo más rápidamente posible para minimizar la pérdida acumulativa de recompensa.

En otra aplicación, imaginemos que queremos que un robot aprenda a localizar y recolectar latas de refresco vacías para su reciclaje. En este caso, la mayoría del tiempo, el robot recibiría una recompensa nula, pero al recolectar cada lata, recibiría una recompensa positiva, por ejemplo, +1. Además, se podría considerar la asignación de una recompensa negativa cuando el robot colisiona con obstáculos u objetos, incentivando así al agente a evitar colisiones y centrarse en la tarea principal de recolección.

Estas ilustraciones ejemplifican cómo la señal de recompensa juega un papel crucial en el diseño de sistemas de aprendizaje por refuerzo y cómo puede ser adaptada de manera precisa para lograr objetivos específicos en diversas aplicaciones. La manipulación de estas señales de recompensa es esencial para guiar el comportamiento del agente y lograr resultados deseables en una amplia gama de contextos de resolución de problemas.

Para que un agente aprenda a jugar a las damas o al ajedrez, las recompensas naturales son +1 al ganar, -1 al perder y 0 al empatar y para todas las posiciones no terminales.

En una variedad de contextos, podemos observar un patrón recurrente: los agentes aprenden de manera efectiva a maximizar sus recompensas. Sin embargo, cuando deseamos que estos agentes realicen tareas específicas en nuestro beneficio, debemos ser precisos y estratégicos al definir las recompensas que les otorgamos. Estas recompensas deben estar cuidadosamente diseñadas para alinear los intereses del agente con nuestros objetivos, lo que es esencial en el campo de la ciencia de datos y la inteligencia artificial.

Es fundamental comprender que las recompensas no deben ser una guía detallada sobre cómo llevar a cabo una tarea, sino más bien un incentivo para que el agente resuelva la tarea de la manera que sea más efectiva para alcanzar nuestros objetivos. Tomemos, por ejemplo, un agente de inteligencia artificial que juega al ajedrez. En este escenario, la recompensa debería estar vinculada exclusivamente a la victoria en el juego en lugar de recompensar subobjetivos, como la captura de las piezas del oponente o el control del centro del tablero.

Si otorgáramos recompensas por la consecución de estos subobjetivos, podríamos enfrentarnos a un problema. El agente podría idear estrategias que cumplan con estos subobjetivos sin necesariamente lograr la victoria en el juego en sí. Por ejemplo, podría enfocarse en capturar las piezas del oponente a expensas de perder la partida en última instancia. Por lo tanto, la señal de recompensa que proporcionamos es una herramienta crucial para comunicarle al agente lo que queremos que logre, sin entrar en los detalles de cómo debe lograrlo.

En resumen, la cuidadosa definición de recompensas es esencial para alinear los intereses de los agentes con nuestros objetivos, garantizando que trabajen en la dirección deseada sin que sea necesario especificar cada paso del proceso.

Las serpientes de Bihar

Antes de continuar quiero hacer un pequeño paréntesis y contar una historia interesante referida a la asignación de recompensas, y como una mala planificación de estas puede llevar a nuestros agentes a resultados inesperados.

La historia tuvo lugar en la región de Bihar, en la India, a principios del siglo XX. Esta historia se relaciona con el fenómeno conocido como el “Plan para eliminar las serpientes de Bihar”.

En la época colonial británica, la región de Bihar estaba plagada de serpientes venenosas, especialmente cobras. Las mordeduras de serpientes eran comunes y, en muchos casos, mortales. Para abordar este problema, el gobierno colonial británico implementó un plan en el que pagaba a los habitantes de la región por cada serpiente venenosa muerta que entregaran. La idea detrás de este programa era reducir la población de serpientes y, en última instancia, disminuir el riesgo de mordeduras.

Sin embargo, esta política tuvo un efecto inesperado y contraproducente. La gente comenzó a criar serpientes venenosas en lugar de matarlas. Criar serpientes se convirtió en un negocio lucrativo, ya que las personas podían obtener una recompensa por cada serpiente entregada y, al mismo tiempo, vender la piel y otros productos de las serpientes.

Como resultado, la población de serpientes venenosas en Bihar aumentó en lugar de disminuir. Cuando las autoridades británicas se dieron cuenta de que su plan no estaba funcionando como se esperaba, cancelaron el programa de recompensas por las serpientes. Esto llevó a una disminución repentina en la demanda de serpientes, lo que llevó a muchos criadores de serpientes a liberar sus animales en la naturaleza. La población de serpientes venenosas en Bihar se disparó aún más y se convirtió en un problema aún mayor.

Retornos

Hemos dicho que el objetivo del agente es maximizar la recompensa que recibe a largo plazo, y a esto lo llamamos retorno. En el caso más simple, el retorno es la suma de las recompensas. Por ejemplo, el retorno esperado en el paso de tiempo t es:

Donde T es el paso de tiempo del estado terminal. Este enfoque tiene sentido en aplicaciones en las que existe una noción natural de paso de tiempo final, que llamamos tareas episódicas.

Por otro lado, en muchos casos la interacción agente-ambiente no se rompe de forma natural en un estado terminal, sino que continúa sin límite, a estas las llamamos tareas continuas.

La formulación del retorno es mas complicada para tareas continuas, porque el paso de tiempo final es T=∞, y el retorno, que es lo que estamos tratando de maximizar, podría ser fácilmente infinito.

Para solucionar esto necesitamos el concepto de descuento. De acuerdo con este enfoque, el agente intenta seleccionar acciones para maximizar la suma de las recompensas descontadas que recibe sobre el futuro, es decir:

Donde γ es el factor de descuento y toma valores entre 0 y 1.

El factor de descuento γ, desempeña un papel fundamental en la valoración de recompensas en el contexto de procesos de toma de decisiones, como en juegos de estrategia como el ajedrez. En este artículo, exploraremos en detalle el concepto de factor de descuento y su impacto en la valoración de acciones en un juego.

Imaginemos que estamos jugando una partida de ajedrez y, al final de la partida, logramos la victoria, lo que nos otorga una recompensa positiva, denotada como r=+1. Ahora, nos preguntamos: ¿cómo asignaríamos recompensas a cada uno de los movimientos que realizamos a lo largo de la partida? La respuesta aparentemente simple sería asignar a cada movimiento la misma recompensa de +1, pero esta aproximación no siempre refleja con precisión la naturaleza del juego.

En el contexto del ajedrez, los movimientos iniciales son cruciales, pero no pueden considerarse igual de importantes que los movimientos finales o el movimiento que lleva a la victoria (el “jaque mate”). Aquí es donde entra en juego el concepto del factor de descuento. Supongamos que realizamos un movimiento al comienzo de la partida y, después de diez movimientos adicionales, finalmente ganamos la partida. La pregunta es: ¿Cuál es la recompensa asociada a ese primer movimiento? La respuesta se encuentra en la aplicación del factor de descuento: la recompensa de ese primer movimiento sería γ¹⁰r.

En esencia, el factor de descuento γ nos permite evaluar la importancia de las recompensas futuras en relación con las recompensas inmediatas. Cuando γ se acerca a 0, damos poca importancia a las recompensas futuras y nos concentramos principalmente en las recompensas inmediatas. Por otro lado, cuando γ se acerca a 1, las recompensas futuras tienen un peso significativo y recuperamos el enfoque tradicional sin descuentos en las recompensas.

Es importante destacar que el factor de descuento también resuelve el problema de que los retornos diverjan en tareas continuas. El adecuado ajuste de γ puede influir en cómo se valora y se toman decisiones en situaciones complejas, como el ajedrez y otros juegos estratégicos, así como en una amplia gama de aplicaciones en el mundo real.

En la figura anterior podemos observar que los primeros pasos tienen menor recompensa que los estados finales. Esto se debe al factor de descuento, haciendo que las primeras acciones tengan menos impacto en la recompensa final que las acciones finales.

Propiedad de Markov

La propiedad de Markov nos habla de, en la teoría de la probabilidad y la estadística, a la propiedad sin memoria de un proceso estocástico. Profundicemos un poco en esta propiedad. Pongámoslo de la siguiente manera:

Esta formula lo que nos dice es que el estado X en el paso n solo depende de su estado inmediatamente anterior en n-1 y es independiente de los estados pasados. Obviamente esto es una suposición y no necesariamente esto sucede realmente así en la situación de la vida real o en los entornos que vamos a simular, sin embargo esta hipótesis nos va ayudar a resolver situaciones complicadas y en la mayoría de los casos esto funciona bastante bien.

Si un entorno exhibe la propiedad de Markov, su dinámica permite realizar predicciones sobre el siguiente estado y la recompensa esperada correspondiente, dados el estado y la acción actuales. Al iterar esta ecuación, es posible anticipar todos los estados futuros y las recompensas esperadas, basándonos únicamente en el estado actual, así como lo sería si tuviéramos conocimiento de la historia completa hasta el momento presente. Además, se deduce que los estados de Markov proporcionan una base óptima para la toma de decisiones, es decir, la mejor política para seleccionar acciones en función de un estado de Markov es igual de eficiente que la mejor política basada en historias completas.

Incluso cuando la señal de estado no cumple con la propiedad de Markov, es válido considerar el estado en el aprendizaje por refuerzo como una aproximación a un estado de Markov. En particular, siempre buscamos que el estado sea una base efectiva para la predicción de recompensas futuras y la selección de acciones.

A medida que el estado se acerca cada vez más a la capacidad de los estados de Markov experimentaremos un mejor rendimiento en los sistemas de aprendizaje por refuerzo. Por todas estas razones, resulta beneficioso pensar en el estado en cada paso de tiempo como una aproximación a un estado de Markov, aunque debemos tener en cuenta que puede no cumplir completamente con la propiedad de Markov.

La propiedad de Markov juega un papel fundamental en el campo del aprendizaje por refuerzo, ya que establece que las decisiones y los valores se basan exclusivamente en el estado actual del sistema. Esta propiedad es esencial para comprender conceptos más avanzados, como las cadenas de Markov, que desempeñan un papel crucial en diversos campos de la ciencia de datos y la estadística.

Para profundizar en este tema, es necesario comprender qué implica la propiedad de Markov y cómo se relaciona con las cadenas de Markov. Una cadena de Markov es un modelo estocástico que describe una secuencia de eventos en la que la probabilidad de que ocurra cada evento depende únicamente del estado alcanzado en el evento anterior. En otras palabras, se trata de una sucesión de eventos donde la propiedad de Markov se cumple, lo que significa que el estado actual es la única información relevante para predecir el estado futuro.

Cuando mencionamos que la cadena de Markov es un modelo “estocástico”, nos referimos a que no es determinista. Esto implica que, dado un estado particular, al realizar una acción específica, no siempre se llegará al mismo estado resultante. Existe un grado de incertidumbre en el proceso, lo que lo hace particularmente adecuado para representar sistemas y fenómenos del mundo real en los que las transiciones entre estados no son completamente predecibles.

Procesos de decisión de Markov (MDP)

El Proceso de Decisión de Markov, comúnmente abreviado como MDP (por sus siglas en inglés, Markov Decision Process) son esenciales para desarrollar estrategias de toma de decisiones en un entorno incierto y se caracterizan por cumplir con la propiedad de Markov, lo que les confiere su nombre.

Un Proceso de Decisión de Markov es, en esencia, una extensión de las cadenas de Markov. A diferencia de las cadenas de Markov, que modelan la transición entre estados en un sistema, los MDPs incorporan la noción de acciones en su estructura. Esto significa que el estado futuro no solo depende del estado actual, sino también de las acciones que el agente elige emprender en ese estado.

Los componentes clave de un MDP se definen mediante una tupla que consta de los siguientes elementos:

Conjunto de Estados (S): Esto representa todas las posibles situaciones o estados que puede experimentar el sistema. En el contexto de un MDP, estos estados pueden ser estados físicos, estados emocionales o cualquier otro tipo de categorización que sea relevante para el problema en cuestión.
Conjunto de Acciones (A): Aquí, se especifican todas las acciones posibles que el agente puede tomar en un estado dado. Estas acciones pueden incluir movimientos, decisiones, elecciones, o cualquier tipo de interacción que afecte el estado futuro del sistema.
Probabilidades de Transición (P(s, a, s’)): Esta función proporciona la probabilidad de que, si el agente se encuentra en un estado particular s y realiza una acción a, llegará a un estado futuro s’. Es decir, mapea las transiciones posibles entre estados en función de las acciones tomadas.
Recompensas (R): Las recompensas son valores numéricos que reflejan la utilidad o el valor asociado a alcanzar un estado específico. En otras palabras, representan la gratificación o el castigo que el agente recibe al tomar ciertas acciones en determinados estados.
Factor de Descuento (γ): Este factor se utiliza para ponderar la importancia de las recompensas futuras en relación con las recompensas inmediatas. Un valor más alto de γ significa que se le da más peso a las recompensas futuras, mientras que un valor más bajo enfatiza las recompensas inmediatas.

Resumamos el proceso de decisión de Markov con un ejemplo. En este ejemplo nuestro agente puede estás en dos estados “energético” y “cansado’’, y en cada momento nuestro agente puede tomar tres acciones que son “hacer ejercicio”, “dormir’’ y “trabajar’’.

Si nos encontramos en estado cansado y decidimos dormir tenemos un 80% de probabilidades de pasar al estado energético y 20% de seguir cansados. Ambas transiciones tienen una recompensa de 0. Si decidimos trabajar mientras estamos cansados obtenemos una recompensa de +20 y seguimos en el mismo estado, mientras que si trabajamos en estado energético tenemos una probabilidad del 80% de pasar al estado cansado con una recompensa de +40 y una probabilidad del 20% de seguir en estado energético con una recompensa de +30. Finalmente si decidimos hacer ejercicio mientras estamos cansados obtenemos una recompensa del -10 siempre, pero tenemos una probabilidad del 50% de seguir cansados y una probabilidad del 50% de pasar a estado energético.

Toda la dinámica de un MDP se puede resumir en un gráfico de transición:

La pregunta ahora entonces es, si nos encontramos en un entorno como este, ¿Qué acción debemos tomar cuando estamos cansados?, y ¿Cuándo estamos energéticos?, ¿Cómo maximizamos las recompensas a largo plazo?. Todo esto lo vamos a poder responder en los próximos capítulos cuando nos adentremos a los modelos de aprendizaje por refuerzo.

Y hasta aquí llegamos con la segunda parte. En la siguiente parte de este capitulo vamos a explorar los conceptos de funciones de valor y un vistazo rápido a los algoritmos de aprendizaje por refuerzo que vamos a ver a lo largo de esta serie.