Aprendizaje por refuerzo (RL) — Capítulo 1: Historia del aprendizaje por refuerzo — Parte 3: Aprendizaje por diferencia temporal

11 min readDec 5, 2023

Bienvenidos a la ultima parte de este capítulo sobre la historía del aprendizaje por refuerzo.

En esta tercera y última parte vamos a ver diversos aspectos clave relacionados con la evolución del aprendizaje por refuerzo, incluyendo la importancia del enfoque centrado en la diferencia temporal, la influencia de la psicología del aprendizaje animal en sus fundamentos, el papel pionero de Arthur Samuel en el desarrollo de métodos de aprendizaje basados en diferencia temporal, la conexión entre el aprendizaje por diferencia temporal y el aprendizaje por prueba y error, y el impacto de figuras como Richard Sutton y Chris Watkins en la formulación de algoritmos cruciales. Además veremos la revolución del aprendizaje profundo y su aplicación en juegos como el ajedrez y el Go, así como en otras áreas como la robótica, la sostenibilidad y la conducción autónoma.

Asi que, vamos a ello!

En este artículo, exploraremos el tercer aspecto clave de la evolución del aprendizaje por refuerzo: el enfoque centrado en el aprendizaje por diferencia temporal. Los métodos basados en diferencia temporal se destacan por su enfoque en las estimaciones sucesivas a lo largo del tiempo, como, por ejemplo, la evaluación de la probabilidad de ganar en el juego del tres en raya. Aunque este enfoque es menos prominente en comparación con otros dos hilos de desarrollo, desempeña un papel significativo en el campo del aprendizaje por refuerzo, en parte debido a su exclusividad y su potencial innovador en el aprendizaje por refuerzo.

Los fundamentos del aprendizaje por diferencia temporal tienen sus raíces en la psicología del aprendizaje animal, específicamente en la noción de reforzadores secundarios. Un reforzador secundario es un estímulo que se asocia con un reforzador primario, como la comida o el dolor, y, como resultado, adquiere propiedades de refuerzo similares. En 1954, Marvin Minsky fue uno de los primeros en reconocer la relevancia de este principio psicológico para los sistemas de aprendizaje artificial. Posteriormente, en 1959, Arthur Samuel propuso e implementó un método de aprendizaje que incorporaba conceptos de diferencia temporal como parte de su famoso programa de juego de damas, aunque no hizo referencia al trabajo de Minsky ni a las conexiones con el aprendizaje animal. En su lugar, Samuel pareció inspirarse en la sugerencia de Claude Shannon de que una computadora podría mejorar su juego de ajedrez mediante la modificación en línea de una función de evaluación.

Samuel se destacó como uno de los pioneros en la efectiva aplicación de métodos de búsqueda heurística y lo que hoy en día consideraríamos como aprendizaje por diferencia temporal. En 1952, Samuel desarrolló su primer programa de juego de damas para la computadora IBM 701. Su primer programa de aprendizaje se completó en 1955 y se presentó en televisión en 1956. A pesar de no alcanzar un nivel experto, las versiones posteriores del programa lograron una habilidad de juego respetable. Samuel eligió el dominio de los juegos como un campo de estudio para el aprendizaje automático debido a su menor complejidad en comparación con los problemas “tomados de la vida real”. Al mismo tiempo, los juegos ofrecían un terreno fértil para investigar cómo los procedimientos heurísticos y el aprendizaje pueden combinarse de manera efectiva. Optó por enfocarse en las damas en lugar del ajedrez debido a su simplicidad relativa, lo que le permitió centrarse más en los aspectos del aprendizaje involucrados.

Arthur Samuel utilizando su programa para jugar a las damas.

En 1961, Minsky realizó un exhaustivo análisis del trabajo de Arthur Samuel en su artículo “Steps”. Durante este análisis, Minsky sugirió una conexión entre el trabajo de Samuel y las teorías de reforzamiento secundario, tanto en contextos naturales como artificiales.

En la década posterior al trabajo de Minsky y Samuel, se observó una escasa investigación computacional en el campo del aprendizaje por prueba y error, y aparentemente no se llevó a cabo ningún trabajo computacional relacionado con el aprendizaje por diferencia temporal. No obstante, en 1972, un investigador llamado Klopf unió el aprendizaje por prueba y error con un componente esencial del aprendizaje por diferencia temporal.

Klopf se centró en los principios que se podrían aplicar al aprendizaje en sistemas de gran escala, y esto lo llevó a explorar las nociones de refuerzo local, a través de las cuales los subcomponentes de un sistema de aprendizaje general pueden reforzarse mutuamente. Introdujo la noción de “refuerzo generalizado”, en la cual cada componente considera todas sus entradas en términos de refuerzo, donde las entradas excitatorias se interpretan como recompensas y las entradas inhibitorias como castigos.

Es importante destacar que esta idea difiere de lo que ahora conocemos como aprendizaje de diferencia temporal y, en retrospectiva, se aleja de la concepción inicial de Samuel. No obstante, Klopf logró vincular esta idea con el aprendizaje por prueba y error, estableciendo conexiones significativas con la rica base de datos empíricos de la psicología del aprendizaje animal.

En 1978, Richard Sutton profundizó en las ideas de Klopf, especialmente en su relación con las teorías de aprendizaje animal. Sutton describió reglas de aprendizaje que se basaban en cambios en predicciones sucesivas en el tiempo. Posteriormente, Sutton y Andrew Barto refinaron estas ideas y desarrollaron un modelo psicológico de condicionamiento clásico basado en el aprendizaje de diferencia temporal en 1981 y 1982.

En 1983, Barto, Sutton y Anderson desarrollaron un método para aplicar el aprendizaje de diferencia temporal al aprendizaje por prueba y error, conocido como la arquitectura actor-crítico. Este método se aplicó con éxito al problema de equilibrio de postes, demostrando su eficacia en la resolución de problemas complejos.

Finalmente, en 1988, Sutton dio un paso crucial al separar el aprendizaje de diferencia temporal del control, considerándolo como un método de predicción general. Además, introdujo el algoritmo TD(λ) y realizó investigaciones para comprender mejor sus propiedades de convergencia.

Estos avances en el campo del aprendizaje por diferencia temporal han sido fundamentales para el desarrollo de algoritmos de aprendizaje automático y han contribuido significativamente a la comprensión de cómo las máquinas pueden aprender y adaptarse a través de la experiencia.

En el año 1977, Ian Witten marcó un hito en el campo del aprendizaje por refuerzo al publicar la primera regla de aprendizaje de diferencia temporal conocida. En su trabajo pionero, propuso el método que hoy en día denominamos tabular TD(0), el cual se utiliza como componente crucial en un controlador adaptativo para resolver Problemas de Decisión de Markov (MDP, por sus siglas en inglés). La obra de Witten se enlazaba con los primeros experimentos realizados por Andreae utilizando STeLLA y otros sistemas de aprendizaje basados en prueba y error. Por consiguiente, el artículo de Witten de 1977 abordó simultáneamente dos líneas fundamentales de investigación en el ámbito del aprendizaje por refuerzo: el aprendizaje basado en prueba y error y el control óptimo. Además, hizo una contribución precoz y significativa al desarrollo del aprendizaje de diferencia temporal.

La fusión de los subcampos de diferencia temporal y control óptimo se produjo en su totalidad en 1989 con la creación del algoritmo de Q-learning por parte de Chris Watkins. Este trabajo amplió y amalgamó los avances previos en las tres vertientes de la investigación en aprendizaje por refuerzo. En 1987, Paul Werbos también contribuyó a esta integración al demostrar la convergencia entre el aprendizaje basado en prueba y error y la programación dinámica. En la época de la investigación de Watkins, se había experimentado un notable crecimiento en el campo del aprendizaje por refuerzo, especialmente en el subcampo del aprendizaje automático.

Paralelamente al incremento del interés en las redes neuronales a mediados de la década de 1980, surgió un gran entusiasmo en torno al aprendizaje por refuerzo profundo, que implica el uso de redes neuronales para representar políticas o funciones de valor en el aprendizaje por refuerzo. Dado que en un sistema de este tipo, todo el proceso de toma de decisiones, desde la captación de datos por sensores hasta la ejecución de acciones por parte de un robot o agente, se realiza mediante una única red neuronal, a veces se le denomina “aprendizaje de refuerzo de extremo a extremo”.

Una de las aplicaciones tempranas y exitosas del aprendizaje por refuerzo con redes neuronales fue TD-Gammon, un programa informático desarrollado en 1992 por Gerry Tesauro para jugar al backgammon. Este programa empleaba cuatro entradas para registrar el número de piezas de un color específico en posiciones determinadas del tablero, generando un total de 198 señales de entrada. Sin ningún conocimiento preexistente, la red neuronal aprendió a jugar en un nivel intermedio a través de partidas contra sí misma y utilizando el algoritmo TD(λ).

Gerry Tesauro utilizando su programa para jugar al backgammon.

En el año 1996, notables obras literarias como el libro de Sutton y Barto sobre el aprendizaje por refuerzo y el trabajo de Bertsekas y Tsitiklis sobre programación neurodinámica, entre otros, marcaron un hito significativo en la expansión del conocimiento y el interés en el campo de la ciencia de datos. En particular, la publicación de la primera edición del libro “Reinforcement Learning: An Introduction” de Richard S. Sutton y Andrew G. Barto desencadenó un floreciente subcampo de la neurociencia que se centra en la interacción entre los algoritmos de aprendizaje por refuerzo y el funcionamiento del sistema nervioso. Este fenómeno se basa en una sorprendente similitud entre el comportamiento de los algoritmos de diferencia temporal y la actividad de las neuronas productoras de dopamina en el cerebro.

El 10 de febrero de 1996, tuvo lugar un evento trascendental en la historia, no solo del deporte, sino también en la relación entre las máquinas y los seres humanos. En esa fecha, la supercomputadora conocida como “Deep Blue” derrotó al renombrado ajedrecista ruso Garry Kasparov.

La historia de Deep Blue se remonta a 1985, cuando Feng-hsiung Hsu, en ese entonces un estudiante graduado de Carnegie Mellon, inició su proyecto de tesis denominado “ChipTest: una máquina para jugar ajedrez”. La versión final de esta máquina impresionante estaba compuesta por dos torres de 2 metros de altura, más de 500 procesadores y 216 chips aceleradores diseñados específicamente para el ajedrez informático. Esta configuración permitía a Deep Blue explorar hasta 100 millones de posiciones de ajedrez posibles por segundo.

Si desea observar la histórica sexta partida entre Deep Blue y Kasparov, puede ver el video a continuación donde se puede apreciar el momento en el que el campeón mundial muestra preocupación y finalmente acepta su derrota ante una máquina, marcando un hito significativo en la relación entre la inteligencia artificial y el ser humano.

A partir de aproximadamente 2012, se inició lo que se conoció como la revolución del aprendizaje profundo, lo que generó un creciente interés en la aplicación de redes neuronales profundas como aproximadores de funciones en una amplia gama de campos. Este fenómeno impulsó un renovado interés entre los investigadores que se enfocaban en el uso de redes neuronales profundas para aprender funciones de política y valores dentro de los algoritmos de aprendizaje por refuerzo existentes.

A comienzos del 2013, DeepMind presentó resultados notables en el campo del aprendizaje al utilizar el aprendizaje profundo por refuerzo (deep RL) para jugar videojuegos de Atari. Para lograrlo, entrenaron una red neuronal mediante un algoritmo de aprendizaje por refuerzo profundo, una variante profunda del Q-learning que denominaron “Redes Q Profundas” (DQN, Deep Q-Learning), utilizando la puntuación del juego como recompensa. Para procesar la información de entrada, emplearon una red neuronal convolucional profunda que trabajaba con los píxeles RGB de 4 fotogramas. Este enfoque permitió aprender a jugar 49 juegos diferentes utilizando la misma arquitectura de red, con un conocimiento previo mínimo. Los resultados sobrepasaron a los métodos competidores en la mayoría de los juegos y alcanzaron un nivel de rendimiento comparable o incluso superior al de un jugador humano profesional.

El aprendizaje por refuerzo profundo alcanzó otro hito significativo en 2015 con el logro de AlphaGo, un programa de computadora entrenado con aprendizaje profundo por refuerzo para jugar al Go. AlphaGo se convirtió en el primer programa de computadora en vencer a un jugador humano profesional de Go en un tablero de tamaño completo de 19x19. Posteriormente, en un proyecto desarrollado en 2017, AlphaZero no solo mejoró el rendimiento en el juego de Go, sino que también demostró la capacidad de utilizar el mismo algoritmo para aprender a jugar ajedrez y shogi a un nivel competitivo o incluso superior al de los programas de computadora existentes para esos juegos. Este éxito se consolidó aún más en 2019 con el desarrollo de MuZero.

En un ámbito diferente, en 2019, investigadores de la Universidad Carnegie Mellon desarrollaron Pluribus, un programa informático diseñado para jugar al póker. Pluribus fue el primer programa en derrotar a profesionales en partidas multijugador de Texas hold’em sin límite, marcando un hito en la aplicación del aprendizaje por refuerzo profundo en juegos de estrategia complejos.

Un evento de relevancia adicional fue la creación de OpenAI Five, un programa destinado a jugar Dota 2 en partidas de cinco contra cinco. En 2019, OpenAI Five logró vencer a los campeones mundiales en una partida de demostración, demostrando el potencial de la inteligencia artificial en la competencia de alto nivel en juegos estratégicos.

El aprendizaje de refuerzo profundo, en la actualidad, abarca una amplia gama de aplicaciones que trascienden los juegos y se extienden hacia diversos campos. En el ámbito de la robótica, se ha empleado con éxito para capacitar a robots en la realización de tareas domésticas cotidianas, así como en la resolución de desafíos como el cubo de Rubik utilizando una mano robótica. Además, el enfoque del Aprendizaje Profundo por Refuerzo (Deep RL) ha encontrado su aplicación en el ámbito de la sostenibilidad, contribuyendo significativamente a la reducción del consumo de energía en los centros de datos. También ha desempeñado un papel crucial en el campo de la conducción autónoma, que constituye un área de investigación activa tanto en la academia como en la industria.

Estas mencionadas contribuciones representan solo una fracción de los avances notables en la historia reciente del aprendizaje por refuerzo. Sin embargo, resulta imposible abordar de manera exhaustiva todas las contribuciones significativas en esta breve descripción. A medida que continuamos explorando y aplicando el aprendizaje de refuerzo profundo en diversas disciplinas, podemos anticipar que seguirá desempeñando un papel fundamental en la resolución de problemas y la innovación en un amplio espectro de campos de estudio.

Y eso es todo para este capítulo, en donde hemos tenido la oportunidad de adentrarnos en el fascinante mundo de la historia del aprendizaje por refuerzo, remontándonos a sus raíces en el ámbito de la psicología. En los próximos capítulos, nos sumergiremos aún más en este apasionante tema, abordándolo desde una perspectiva más técnica y explorando los diversos modelos y avances que han tenido lugar en este campo a lo largo del tiempo.

El aprendizaje por refuerzo es un área de estudio que ha evolucionado de manera significativa a lo largo de los años, y voy a tratar de proporcionarte una comprensión completa de su desarrollo y aplicaciones en el ámbito de la ciencia de datos.

Conforme avancemos en esta serie de artículos, te invito a prepararte para un viaje en el que profundizaremos en los aspectos más intrigantes y desafiantes del aprendizaje por refuerzo. Exploraremos sus fundamentos teóricos, examinaremos cómo se ha implementado en la práctica y discutiremos su importancia en diversas aplicaciones del mundo real.

Así que, acompáñame en este emocionante recorrido a través del aprendizaje por refuerzo, y juntos exploraremos las maravillas y complejidades de esta apasionante disciplina.