Aprendizaje por refuerzo (RL) — Capítulo 1: Historia del aprendizaje por refuerzo — Parte 1: Aprendizaje por prueba y error

10 min readDec 4, 2023

--

Bienvenidos al primer capítulo dedicado al tema del aprendizaje por refuerzo o también conocido como Reinforcement Learning (RL). En este capítulo, exploraremos la evolución histórica que condujo al desarrollo del aprendizaje por refuerzo moderno y su impacto significativo en el campo de la inteligencia artificial.

Yo no soy historiador, ni mucho menos, y sería inapropiado no reconocer la influencia crucial de Richard S. Sutton y Andrew G. Barto en esta narrativa. En su influyente obra, “Reinforcement Learning: An Introduction”, compilaron una exhaustiva colección de los eventos históricos relacionados con el aprendizaje por refuerzo. Además, proporcionaron una comprensión profunda de numerosos métodos de aprendizaje por refuerzo en el contexto de la inteligencia artificial. Por lo tanto, los citaremos con frecuencia a lo largo de esta serie.

A lo largo de esta serie de capítulos, abordaremos de manera exhaustiva la historia del aprendizaje por refuerzo, comenzando desde sus fundamentos más simples, como el algoritmo minmax y los multi-armed bandit y seguiremos gradualmente hacia los modelos más avanzados y el estado del arte actual en el campo del aprendizaje por refuerzo. Esto incluirá la exploración de modelos como el Actor-Critic y el impresionante AlphaZero y MuZero, que representan los logros más recientes y emocionantes en esta disciplina.

Sin mas preámbulos, comencemos.

La historia del aprendizaje por refuerzo se compone de dos hilos principales, cada uno con una rica y significativa trayectoria, que se desarrollaron de manera independiente antes de converger en el enfoque moderno del aprendizaje por refuerzo. Uno de estos hilos se origina en el concepto de “aprendizaje por prueba y error,” que tuvo sus raíces en la psicología del aprendizaje animal. Este hilo histórico se entrelaza con los primeros avances en inteligencia artificial y desempeñó un papel fundamental en el resurgimiento del aprendizaje por refuerzo en la década de 1980.

El segundo hilo se relaciona con el “control óptimo” y su solución mediante el uso de funciones de valor y programación dinámica. A pesar de que estos dos hilos han estado en gran medida separados, hubo excepciones notables, particularmente en lo que respecta a la incorporación de métodos de diferencia temporal. Estos tres enfoques se fusionaron a fines de la década de 1980 para dar forma al campo contemporáneo del aprendizaje por refuerzo.

Para comprender mejor la historia del aprendizaje por refuerzo, es necesario profundizar en el hilo que se centra en el aprendizaje por prueba y error, que es el enfoque principal de esta narrativa. Sin embargo, antes de adentrarnos en ese tema, hagamos un breve análisis del subproceso relacionado con el control óptimo.

El término “control óptimo” comenzó a utilizarse en la década de 1950 para describir el desafío de diseñar un controlador que minimice una medida específica del comportamiento de un sistema dinámico a lo largo del tiempo. Una de las aproximaciones clave para abordar este problema se desarrolló a mediados de la década de 1950, gracias a Richard Bellman y otros, que expandieron la teoría del siglo XIX de Hamilton y Jacobi. Este enfoque introdujo conceptos fundamentales como el “estado” de un sistema dinámico y la “función de valor” o “función de retorno óptimo,” lo que condujo a la formulación de la conocida ecuación de Bellman. Los métodos que surgieron para resolver problemas de control óptimo a través de esta ecuación se denominaron “programación dinámica.” Además, Bellman también introdujo la versión estocástica discreta del problema de control óptimo, conocida como “procesos de decisión markovianos” (MDP), mientras que Ronald Howard ideó el método de “iteración de políticas” para MDP. Todos estos conceptos son fundamentales en la teoría y los algoritmos modernos del aprendizaje por refuerzo.

Richard Bellman: Richard Ernest Bellman (1920 — 1984) fue un matemático aplicado, célebre por su invención de la programación dinámica en 1953, y sus importantes contribuciones en otros campos de las matemáticas. Fue galardonado con la Medalla de Honor del IEEE en 1979, “por sus contribuciones a los procesos de decisión y la teoría de sistemas de control, en particular por la creación y aplicación de la programación dinámica”. Su obra fundamental es la ecuación de Bellman.

La conexión entre el control óptimo, la programación dinámica y el aprendizaje por refuerzo no fue inmediata y tardó en reconocerse. Esta separación podría atribuirse a la distinta naturaleza de las disciplinas involucradas y sus objetivos divergentes. Además, la programación dinámica se basaba tradicionalmente en modelos precisos de sistemas y soluciones analíticas para la ecuación de Bellman, lo que pudo haber contribuido a esta brecha. Uno de los primeros intentos de conectar el control óptimo y la programación dinámica con el aprendizaje fue realizado por Paul Werbos en 1987, quien propuso un enfoque aproximado llamado “programación dinámica heurística.”

La verdadera integración de los métodos de programación dinámica con el aprendizaje en línea se materializó gracias al trabajo de Chris Watkins en 1989. Su enfoque del aprendizaje por refuerzo utilizando el formalismo MDP se adoptó ampliamente. Desde entonces, estos vínculos han sido ampliamente explorados por muchos investigadores, especialmente Dimitri Bertsekas y John Tsitsiklis en 1996, quienes acuñaron el término “programación neurodinámica” para describir la combinación de programación dinámica y redes neuronales. Otro término utilizado actualmente es “programación dinámica aproximada.”

Ahora, volvamos al otro hilo principal que condujo al campo moderno del aprendizaje por refuerzo, centrado en el concepto de aprendizaje por prueba y error. El psicólogo estadounidense R. S. Woodworth fue uno de los primeros en explorar esta idea, que se remonta a la década de 1850. Edward Thorndike, por su parte, fue uno de los pioneros en expresar la esencia del aprendizaje por prueba y error como un principio de aprendizaje. En 1911, Thorndike afirmó que:

”Las respuestas que producen un efecto satisfactorio en una situación particular tienen más probabilidades de volver a ocurrir en esa situación, y las respuestas que producen un efecto incómodo tienen menos probabilidades de volver a ocurrir en esa situación. Cuanto mayor sea la satisfacción o la incomodidad, mayor será el fortalecimiento o debilitamiento del vínculo”.

Edward Lee Thorndike: Edward Lee Thorndike (1874 — 1949) psicólogo y pedagogo estadounidense, uno de los pioneros de la psicología del aprendizaje. Para desarrollar sus investigaciones, Edward Thorndike se apoyó en el estudio de animales, en concreto gatos, y en la utilización de herramientas como la “caja rompecabezas” o “caja-problema”, en la que el animal debía accionar un mecanismo para poder salir de ella. El resultado de sus estudios fue la elaboración de la teoría del aprendizaje por ensayo y error.

Esta observación sentó las bases para el condicionamiento operante, una teoría del aprendizaje dentro del conductismo que difiere del condicionamiento clásico al enfocarse en las consecuencias del comportamiento en lugar de las asociaciones entre eventos.

Edward Thorndike realizó su famoso experimento en la década de 1890, utilizando un dispositivo conocido como la “caja del gato.” Esta caja era un pequeño recinto con una puerta que se podía abrir mediante una palanca. Los animales, generalmente gatos, se colocaban en la caja con la esperanza de que aprendieran a manipular la palanca para abrir la puerta y obtener una recompensa en forma de alimento. Este experimento fue un hito en la comprensión del aprendizaje por prueba y error y sentó las bases para futuras investigaciones en el campo del aprendizaje por refuerzo.

Experimento ”caja del gato” de Edward L. Thorndike.

Thorndike, colocó a un gato en una caja y lo motivó a escapar en busca de un apetitoso trozo de pescado colocado fuera de la misma. Su objetivo era medir el tiempo que el felino tardaba en lograr su liberación. Los gatos, en su búsqueda por alcanzar el pez, experimentaron diversas estrategias para escapar de la caja. Eventualmente, muchos de ellos descubrieron una palanca que, al ser accionada, abría la puerta de la jaula. Tras la fuga exitosa, el gato era nuevamente colocado en la caja, y se registraba nuevamente el tiempo que requería para liberarse. Con el paso de las repeticiones, los gatos aprendieron que presionar la palanca tenía efectos positivos y, como resultado, se volvieron más hábiles y rápidos en activar la palanca.

Este experimento de Thorndike evidenció un principio fundamental en el aprendizaje animal: la capacidad de los seres vivos para aprender a través de la asociación entre sus acciones y las recompensas que obtienen. Thorndike formuló lo que llamó la “Ley del efecto”, convirtiéndose en uno de los primeros en aplicar principios psicológicos al estudio del aprendizaje.

Otro psicólogo influyente en el desarrollo de la teoría del aprendizaje por refuerzo fue B.F. Skinner. Skinner llevó a cabo experimentos similares a los de Thorndike, pero utilizó ratas y palomas como sujetos de estudio. Este científico desarrolló un dispositivo conocido como la “caja de Skinner”, en la cual los animales podían presionar una palanca para recibir alimento como recompensa.

El experimento realizado por Skinner en 1938 fue relativamente sencillo pero esclarecedor. Una rata era ubicada en una jaula aislada del entorno externo y diseñada para evitar estímulos sonoros y visuales. Dentro de la jaula, se colocaba una pequeña palanca cuyo accionamiento ocasionaba la liberación de comida. Además, la palanca estaba conectada a un dispositivo que registraba la frecuencia de su presión, marcando el papel que se movía a través de un rodillo. De esta manera, se podía llevar un registro preciso de cuántas veces la rata activaba la palanca. Este experimento proporcionó valiosa información sobre el proceso de aprendizaje a través del refuerzo.

Experimento ”caja de Skinner” de B.F. Skinner.

En un entorno experimental controlado, se observa el comportamiento de una rata confinada en una jaula que tiene acceso a una palanca. La rata tiene la libertad de explorar su entorno y, en algún momento, decide presionar la palanca, lo que resulta en la liberación de comida. Sin embargo, con el tiempo, se nota una disminución gradual en la frecuencia con la que la rata presiona la palanca. Esto se debe a un patrón observado: la rata presiona la palanca varias veces en rápida sucesión, con intervalos entre las presiones que coinciden con el tiempo necesario para consumir la comida proporcionada. Después de satisfacer su apetito, la rata deja de presionar la palanca durante un período de tiempo determinado. Posteriormente, la rata regresa a la palanca de manera decidida, reanuda la presión y continúa comiendo.

Este experimento, inicialmente diseñado por B.F. Skinner, se centró en el concepto de refuerzo positivo, donde la acción de presionar la palanca se refuerza con la recompensa de comida. Sin embargo, Skinner también exploró el concepto de extinción, donde cesó la recompensa asociada con la palanca, lo que llevó al cese de la conducta en cuestión. Notablemente, el tiempo que llevó a los animales aprender y desaprender la conducta fue similar, lo que resalta la consistencia en la aplicación de estos principios.

Además, Skinner investigó el refuerzo negativo, ilustrado mediante la colocación de una rata en una caja y la exposición a una corriente eléctrica desagradable. La rata rápidamente aprendió a presionar la palanca para interrumpir la corriente eléctrica, lo que garantizaba que repetiría esta acción. Skinner incluso demostró que las ratas podían evitar la corriente eléctrica al encender una luz antes de su activación, lo que llevó a las ratas a presionar la palanca cuando veían la luz para evitar el estímulo aversivo.

Burrhus Frederic Skinner: B.F. Skinner (1904–1990) psicólogo, filósofo social, inventor y autor estadounidense. Condujo un trabajo pionero en psicología experimental y defendió el conductismo, que considera el comportamiento como una función de las historias ambientales de refuerzo. Un estudio de la *American Psychological Association* (APA), publicado en 2002, lo situó como el psicólogo de mayor relevancia del siglo xx.

Puede ver una demostración de este experimento, pero con una paloma, en el siguiente video:

Estos experimentos con animales ofrecieron valiosas perspectivas sobre cómo el comportamiento puede ser moldeado mediante la aplicación de recompensas y castigos, sentando las bases para la teoría del aprendizaje por refuerzo. En resumen, Edward L. Thorndike y B.F. Skinner son destacados pioneros en la investigación de este campo, cuyos experimentos contribuyeron significativamente a una comprensión más profunda de cómo los organismos aprenden a través de la experimentación y la aplicación de refuerzos.

Es importante destacar que el término “refuerzo” en el contexto del aprendizaje animal comenzó a utilizarse después de la formulación de la Ley del Efecto de Thorndike y se introdujo por primera vez en este contexto en la traducción al inglés de 1927 de la monografía de Pavlov sobre los reflejos condicionados.

En su experimento más célebre, “el perro de Pavlov’’, Pavlov presentaba a un perro inmediatamente, antes de la aparición del alimento, un estímulo condicionado, constituido por el sonido de un timbre. Después de haber presentado repetidamente, siguiendo un patrón de contingencia temporal, el timbre y la comida, el perro comenzaba a producir la respuesta de la salivación cada vez que oía el timbre, es decir, comenzaba a manifestar un comportamiento que normalmente se emitía en respuesta a la aparición de la comida, aunque en esa prueba particular la comida no se le administraba. Los estudios de Iván Pavlov demuestran que un estímulo inicialmente incapaz de evocar una cierta respuesta, si se presenta repetidamente junto con un estímulo incondicional, respetando las reglas de la contigüidad temporal, se asocia a esto y se vuelve capaz de evocar la misma respuesta de comportamiento.

Experimento ”el perro de Pavlov” de Iván Pavlov.

Si bien no es el mismísimo Pavlov al que podemos ver en el video, puede encontrar una interesante dramatización de los experimentos de Pavlov a continuación:

El “refuerzo’’ es el fortalecimiento de un patrón de conducta como resultado de que un animal reciba un estímulo (un reforzador) en una relación temporal apropiada con otro estímulo o con una respuesta. Algunos psicólogos ampliaron su significado para incluir el proceso de debilitamiento además del fortalecimiento. El reforzamiento produce cambios en la conducta que persisten después de la retirada del reforzador, por lo que no se considera como reforzador un estímulo que atrae la atención de un animal o que dinamiza su conducta sin producir cambios duraderos.

Iván Pávlov: Iván Pávlov (1849 — 1936) fisiólogo ruso, célebre por haber formulado el condicionamiento clásico. Fue laureado con el Premio Nobel de Fisiología o Medicina en 1904 en reconocimiento de su trabajo en la fisiología de la digestión, a través del cual el conocimiento sobre aspectos vitales de su funcionamiento han sido transformados y ampliados.

La idea de implementar el aprendizaje por prueba y error en una computadora apareció entre los primeros pensamientos sobre la posibilidad de la inteligencia artificial recién en 1948, pero eso lo vamos a dejar para la segunda parte.