Aprendizaje por refuerzo (RL) — Capítulo 1: Historia del aprendizaje por refuerzo — Parte 2: Máquinas que aprenden

Joan Cerretani
16 min readDec 4, 2023

--

Foto de Iñaki del Olmo en Unsplash

Bienvenidos a la segunda parte de la historia del aprendizaje por refuerzo.

En la primera parte exploramos la historia del aprendizaje, destacando dos hilos principales de su evolución histórica. Uno se relaciona con el concepto de “aprendizaje por prueba y error” que se originó en la psicología del aprendizaje animal y se entrelazó con los avances en inteligencia artificial en la década de 1980. El otro hilo se basa en el “control óptimo” y la programación dinámica, que se conectaron con el aprendizaje por refuerzo gracias al trabajo de varios investigadores, incluyendo a Richard Bellman y Chris Watkins. Además, se mencionaron pioneros como Edward Thorndike y B.F. Skinner, quienes realizaron experimentos con animales para comprender cómo el comportamiento puede ser moldeado mediante recompensas y castigos, sentando las bases para la teoría del aprendizaje por refuerzo.

En esta segunda parte vamos a explorar la evolución del aprendizaje por refuerzo a lo largo de la historia, desde sus primeros conceptos planteados por Alan Turing en 1948 hasta los avances de investigadores como Claude Shannon, Marvin Minsky, Donald Michie, y otros. Vamos a ver cómo estas mentes pioneras desarrollaron sistemas y experimentos para enseñar a las máquinas a aprender de manera autónoma a través del ensayo y error, utilizando ejemplos como el ratón “Theseus” de Shannon y el sistema MENACE de Michie.

Comencemos!

Como comentamos al final del capítulo anterior, la idea de implementar el aprendizaje por prueba y error en una computadora apareció entre los primeros pensamientos sobre la posibilidad de la inteligencia artificial. En un informe de 1948, Alan Turing describió un diseño para un “sistema de placer-dolor’’ que funcionaba de acuerdo con la Ley del efecto:

“Cuando se alcanza una configuración para la cual la acción es indeterminada, se hace una selección aleatoria de los datos que faltan y se hace la entrada apropiada en la descripción, tentativamente, y se aplica. Cuando ocurre un estímulo de dolor, todas las entradas tentativas se cancelan, y cuando ocurre un estímulo de placer, todas se vuelven permanentes.’’

Alan Turing: Alan Mathison Turing (1912 — 1954) fue un matemático, lógico, informático teórico, criptógrafo, filósofo y biólogo teórico británico. Es considerado como uno de los padres de la ciencia de la computación y precursor de la informática moderna. Proporcionó una formalización influyente de los conceptos de algoritmo y computación: la máquina de Turing. Durante la segunda guerra mundial, trabajó en descifrar los códigos nazis, particularmente los de la máquina Enigma.

Este enfoque se refiere a un proceso utilizado para la toma de decisiones en situaciones caracterizadas por la falta de información completa o con la presencia de incertidumbre. En tales circunstancias, cuando se requiere tomar una decisión y la información disponible es insuficiente para determinar la mejor acción a seguir, se recurre a un procedimiento que implica la elección aleatoria de una opción y su aplicación al sistema en cuestión. Profundicemos en la explicación de este proceso.

Si durante la aplicación de la elección aleatoria se encuentra un indicador de “dolor”, que señala que la decisión tomada no fue la opción óptima, se procede a cancelar la entrada tentativa y se reinicia el proceso de toma de decisiones. Por otro lado, si durante la ejecución se detecta un indicador de “placer”, lo que sugiere que la elección fue exitosa, se establece la entrada tentativa como permanente.

Es relevante destacar que esta idea comenzó a gestarse en el ámbito de la ciencia y la tecnología en la década de 1950. Alan Turing, aunque planteó la premisa inicial, no desarrolló en profundidad este concepto. No fue hasta el año 1954, año de su muerte, que Wesley Clark y Belmont Farley realizaron simulaciones de aprendizaje por refuerzo en una red neuronal dentro de una computadora digital. Al mismo tiempo, Marvin Minsky presentó una red neuronal de aprendizaje por refuerzo analógica en su tesis doctoral en Princeton.

Sin embargo, es importante mencionar que incluso antes de 1954, se habían concebido ingeniosos dispositivos de aprendizaje por refuerzo, aunque estos eran de naturaleza electromecánica en lugar de informática. Un ejemplo de ello es el laberinto diseñado por Claude Shannon.

En 1952, Claude Shannon desarrolló un experimento que involucraba un ratón que navegaba por un laberinto denominado “Theseus”. Este ratón empleaba un enfoque de prueba y error para encontrar su camino hacia una ubicación objetivo en el laberinto. Además, el propio laberinto tenía la capacidad de recordar las direcciones exitosas mediante el uso de imanes y relés ubicados bajo su superficie.

Claude Shannon: Claude Elwood Shannon (1916 — 2001) matemático , ingeniero eléctrico , informático y criptógrafo estadounidense conocido como el “padre de la teoría de la información”. Se le atribuye, junto con George Boole, el mérito de sentar las bases de la era de la información. Scientific American llamó a su famoso artículo la “Carta Magna de la era de la información” . También hizo contribuciones a la inteligencia artificial . Se dice que sus logros están a la par con los de Albert Einstein y Alan Turing en sus campos.

Es importante resaltar que “Theseus” era mucho más que un simple laberinto electromecánico en el que un ratón buscaba un premio. El ratón en cuestión estaba equipado con un imán de barra de 2 pulgadas, tres ruedas y bigotes de cobre. Este ingenioso dispositivo podía resolver rápidamente más de un billón de laberintos diferentes, aprendiendo cada uno de ellos de manera eficiente y olvidándolos instantáneamente para estar listo para aprender el siguiente. El objetivo final del ratón era alcanzar una terminal eléctrica que emitía una señal (una campanada) al ser tocada por los bigotes de cobre del ratón.

Este ejemplo ilustra cómo la idea de aprendizaje por refuerzo y la toma de decisiones en situaciones inciertas han evolucionado a lo largo del tiempo, desde los primeros conceptos planteados por Turing hasta las implementaciones prácticas como la del ratón “Theseus” de Claude Shannon. Este enfoque sigue siendo relevante en el campo de la inteligencia artificial y la ciencia de datos, donde se utiliza para resolver problemas complejos con información incompleta o incierta.

Laberinto de Shannon (interior).

El laberinto en cuestión está compuesto por barreras de aluminio que pueden ser reconfiguradas en hasta 40 configuraciones diferentes, lo que permite la creación de desafíos sumamente complejos para un ratón. El proceso comienza con la colocación del ratón en cualquier ubicación arbitraria dentro del laberinto, mientras que el punto de destino se establece en otro lugar igualmente arbitrario. Tras una breve pausa para que el ratón se oriente, este comienza su travesía por los pasillos del laberinto, enfrentando barreras, retrocediendo y girando, explorando sin cesar hasta que, en cuestión de uno o dos minutos, finalmente alcanza su objetivo y hace sonar una señal.

La fascinante particularidad de este experimento reside en que, una vez que el ratón ha aprendido la ruta correcta hacia su destino, puede ser colocado en cualquier punto que haya visitado previamente durante sus exploraciones. En este caso, el ratón realizará un recorrido directo hacia el objetivo en un lapso asombrosamente breve, que oscila entre 12 y 15 segundos. Si, por otro lado, se coloca al ratón en una parte del laberinto que no ha sido explorada previamente, este no dudará en emprender una nueva exploración hasta llegar a una zona ya conocida, a partir de la cual seguirá su camino hacia la meta de forma directa. Vale la pena destacar que, en caso de que el laberinto sea modificado posteriormente, el ratón deberá aprender nuevamente las rutas alteradas mediante una exploración adicional. Sin embargo, conservará de manera notable la memoria de las partes del recorrido que permanecen inalteradas. Este fenómeno revela la asombrosa capacidad de aprendizaje y adaptación de los ratones en entornos laberínticos cambiantes.

Laberinto de Shannon (exterior).

Expliquemos el funcionamiento del ingenioso dispositivo que resuelve laberintos. Su funcionamiento se basa en una serie de componentes y algoritmos que le permiten explorar el laberinto de manera metódica y resolver problemas complejos.

Cuando el ratón Theseus se coloca en el piso de metal del laberinto, se inicia un proceso ingenioso. Un interruptor eléctrico es activado al entrar en contacto con el piso, registrando así la posición inicial del ratón. A continuación, un electroimán, impulsado por un motor, se mueve rápidamente hasta situarse directamente debajo del ratón. Una vez en posición, el electroimán utiliza su agarre magnético para sostener al ratón.

El siguiente paso es crucial: el electroimán gira 90 grados, llevando consigo al ratón, y lo guía hacia adelante. En su recorrido, el ratón utiliza sus sensores de cobre, en forma de bigotes, para detectar barreras y callejones sin salida. Si se encuentra con una barrera, el ratón Theseus retrocede, cambia de dirección y continúa su búsqueda hasta encontrar un camino abierto hacia la meta. Este proceso se repite de manera persistente hasta que se alcanza el objetivo del laberinto.

Bajo el piso de metal del laberinto, un electroimán montado en un carro motorizado puede moverse en todas las direcciones: norte, sur, este y oeste. A medida que el electroimán se desplaza, Theseus lo sigue. Cada vez que los bigotes de cobre del ratón entran en contacto con una pared de metal y cierran un circuito eléctrico, dos cosas suceden. En primer lugar, un interruptor cambia de estado de “encendido” a “apagado”, registrando esa ubicación como una casilla con una pared en ese lado. Luego, Theseus gira 90 grados en el sentido de las agujas del reloj y avanza a la siguiente casilla. De esta manera, el ratón Theseus avanza sistemáticamente por el laberinto, registrando las salidas y las paredes de cada casilla por las que pasa.

La verdadera innovación de este ratón y su laberinto reside en sus cuatro habilidades operativas clave. Theseus puede resolver problemas mediante el método de prueba y error, recordar soluciones previas y aplicarlas en momentos posteriores, incorporar nueva información a soluciones previamente recordadas y, por último, olvidar una solución para aprender una nueva cuando se presenta un problema diferente. Esta capacidad de adaptación y aprendizaje lo convierte en una herramienta valiosa para la resolución de problemas complejos.

Puede encontrar un interesante video de Claude Shannon haciendo una demostración de Theseus, donde muestra y explica su funcionamiento en el siguiente video:

En las primeras incursiones computacionales en el aprendizaje basado en la experimentación, un hito fundamental fue alcanzado en 1954 por los investigadores Minsky, Farley y Clark. En ese tiempo, Minsky exploró modelos computacionales de aprendizaje por refuerzo y dio origen a lo que denominó la “Calculadora analógica de refuerzo neuronal estocástico” (SNARC), la primera máquina de red neuronal artificial concebida. Minsky se adentró en este campo en 1949, ponderando la posibilidad de diseñar máquinas capaces de aprender. Con el uso de componentes analógicos y electromecánicos, construyeron una red neuronal de 40 neuronas. Cada neurona fue diseñada con un condensador para la memoria a corto plazo y un potenciómetro para la memoria a largo plazo.

Marvin Minsky: Marvin Lee Minsky (1927 — 2016) fue un científico cognitivo e informático estadounidense preocupado en gran medida por la investigación de la inteligencia artificial (IA), cofundador del laboratorio de IA del Instituto Tecnológico de Massachusetts y autor de varios Textos sobre IA y filosofía. Minsky recibió muchos elogios y honores, incluido el Premio Turing de 1969 .

Para evaluar su capacidad de aprendizaje, sometieron a la máquina a la tarea de navegar por un laberinto virtual. Cuando una acción resultaba en una recompensa positiva, se empleaba un embrague eléctrico para ajustar un potenciómetro. La combinación de configuraciones de potenciómetros en la red (análoga a los pesos en las modernas redes neuronales digitales) permitió que la máquina aprendiera a tomar acciones efectivas para resolver el laberinto.

En la década de 1960, los términos “refuerzo” y “aprendizaje por refuerzo” hicieron su debut en la literatura de ingeniería. Un artículo influyente en este contexto fue el de Minsky, titulado “Pasos hacia la inteligencia artificial”, en el cual se abordaron diversos temas cruciales para el aprendizaje por refuerzo. Uno de estos temas clave fue lo que Minsky denominó el “problema de asignación de créditos”: la cuestión de cómo atribuir el mérito del éxito entre las numerosas decisiones que podrían haber influido en el resultado.

Por otro lado, los intereses de Farley y Clark evolucionaron desde el aprendizaje por prueba y error hacia la generalización y el reconocimiento de patrones, es decir, del aprendizaje por refuerzo al aprendizaje supervisado. Esta transición generó cierta confusión en la comunidad científica en cuanto a la distinción entre estos tipos de aprendizaje. Muchos investigadores creían estar explorando el aprendizaje por refuerzo cuando, en realidad, estaban involucrados en el estudio del aprendizaje supervisado. Esta ambigüedad marcó el inicio de una larga conversación en la ciencia de datos sobre las diferencias fundamentales entre estas dos formas de aprendizaje automático.

Por ejemplo, los pioneros en el campo de las redes neuronales, como Rosenblatt, Widrow y Hoff, demostraron un claro interés por el concepto de aprendizaje por refuerzo, utilizando el lenguaje de recompensas y castigos en sus investigaciones. Sin embargo, sus estudios se centraron en sistemas de aprendizaje supervisado, específicamente diseñados para el reconocimiento de patrones y la percepción. Algunos libros de referencia sobre redes neuronales han empleado la expresión “prueba y error” para describir el proceso mediante el cual estas redes aprenden a partir de ejemplos de entrenamiento. Esta terminología puede generar cierta confusión, ya que estas redes utilizan información de error para actualizar sus pesos de conexión, pero esto no abarca completamente la esencia del aprendizaje basado en prueba y error.

En parte debido a estas confusiones conceptuales, la investigación sobre el auténtico aprendizaje por prueba y error experimentó un declive en las décadas de 1960 y 1970. No obstante, existieron notables excepciones a esta tendencia, como el trabajo del investigador neozelandés John Andreae. En 1969, Andreae desarrolló un sistema denominado STeLLA, el cual aprendía mediante la interacción con su entorno a través de la metodología de prueba y error. Este sistema incorporaba un modelo interno del mundo que le permitía experimentar y aprender de manera autónoma. A medida que su investigación avanzó, Andreae comenzó a centrarse más en la adquisición de conocimientos a partir de un maestro, aunque aún conservaba elementos fundamentales de aprendizaje por prueba y error en sus desarrollos posteriores.

Uno de los hitos más significativos en el campo de la inteligencia artificial y el aprendizaje automático fue el trabajo pionero llevado a cabo por Donald Michie. En los años 1961 y 1963, Michie presentó un sistema de aprendizaje basado en la prueba y error que revolucionó la comprensión de cómo las máquinas pueden aprender y mejorar su desempeño en un juego tan clásico como el tres en raya (conocido también como TaTeTi o Tic Tac Toe).

Donald Michie: Donald Michie (1923 — 2007) fue un investigador británico en inteligencia artificial.​ Durante la Segunda Guerra Mundial, Michie trabajó para la Government Code and Cypher School del Government Communications Headquarters en Bletchley Park, contribuyendo al esfuerzo por resolver ‘’Tunny’’, un sistema de cifrado de teleimpresor alemán.

Este sistema, denominado MENACE (Matchbox Educable Noughts and Crosses Engine), consistía en un enfoque ingenioso que utilizaba cajas de fósforos para representar cada posible posición en el juego. Dentro de cada caja de fósforos se almacenaban fósforos de colores distintos, cada uno representando una opción de movimiento a partir de la posición correspondiente. Al seleccionar aleatoriamente un fósforo de la caja asociada a la posición actual del juego, MENACE tomaba su decisión de movimiento.

La genialidad de MENACE radicaba en su capacidad para aprender de la experiencia. Después de cada partida, se ajustaban las cantidades de fósforos en las cajas utilizadas durante el juego. Esta acción servía para reforzar las decisiones acertadas y castigar las decisiones equivocadas de MENACE (cuando terminaba un juego, se agregaban o quitaban fósforos de las cajas utilizadas durante el juego para reforzar o castigar las decisiones de MENACE). En esencia, MENACE estaba aprendiendo de sus errores y mejorando su desempeño a medida que acumulaba experiencia en el juego del tres en raya.

Este enfoque de aprendizaje basado en la retroalimentación y la adaptación continua sienta las bases para comprender cómo las máquinas pueden mejorar sus habilidades a través de la experiencia y la toma de decisiones autónoma. El legado de Donald Michie y su MENACE sigue siendo relevante en la actualidad, ya que subraya la importancia de la retroalimentación y el aprendizaje continuo en el campo de la inteligencia artificial y el aprendizaje automático. Este enfoque también sirve como un recordatorio de la fascinante capacidad de las máquinas para aprender y adaptarse, una habilidad fundamental en la ciencia de datos y la inteligencia artificial.

MENACE.

En esta sección, me gustaría realizar una breve aclaración personal. MENACE, a pesar de su aparente simplicidad, abarca todos los aspectos fundamentales que los algoritmos de aprendizaje por refuerzo modernos incorporan. Por lo tanto, es un experimento altamente recomendable para llevar a cabo con tus propias manos con el fin de comprender la esencia del aprendizaje por refuerzo. Una comprensión profunda de cómo opera este sistema les proporcionará una base sólida para asimilar los modelos que exploraremos en los próximos capítulos.

A continuación les dejo un video donde pueden ver la implementación de este experimento:

Si bien Donald Michie utilizó 304 cajas de cerillas o fósforos para llevar a cabo su experimento MENACE (debido a la cantidad de estados involucrados), es posible replicar este experimento de manera más sencilla (un juego con menos estados, aunque no sea un juego divertido) o incluso programarlo, aunque para entender el proceso en profundidad recomiendo hacer un experimento “analógico”. Dicho esto, prosigamos.

En 1968, Michie y Chambers presentaron otro sistema de aprendizaje por refuerzo denominado GLEE, junto con un controlador de aprendizaje de refuerzo conocido como BOXES. Este último fue aplicado a la tarea de aprender a equilibrar un poste articulado en un carro móvil. La peculiaridad de esta tarea radicaba en que BOXES solo recibía una señal de falla cuando el poste caía o el carro alcanzaba el final de su recorrido. Esta tarea en particular se inspiró en el trabajo previo de Widrow y Smith, quienes habían empleado métodos de aprendizaje supervisado, suponiendo que ya tenían a su disposición un maestro capaz de equilibrar el poste manualmente.

La versión de equilibrio de postes propuesta por Michie y Chambers es uno de los ejemplos más destacados de tareas de aprendizaje por refuerzo en un contexto de conocimiento limitado. Esencialmente, esta tarea requería que el sistema aprendiera a través de la experimentación y la interacción con su entorno, lo que subraya la importancia del ensayo y error en el proceso de aprendizaje.

En otra vertiente de este campo, Widrow, Gupta y Maitra efectuaron modificaciones en el algoritmo Least-Mean-Square (LMS) de Widrow y Hoff. Estas modificaciones resultaron en una regla de aprendizaje por refuerzo que tenía la capacidad de aprender a partir de señales de éxito y fracaso, en contraposición a los ejemplos de entrenamiento. Este enfoque, conocido como “adaptación selectiva de arranque”, se describió como “aprender con un crítico” en lugar de “aprender con un maestro”.

Los investigadores examinaron detenidamente esta regla y demostraron su aplicabilidad al juego de blackjack. A pesar de ser una incursión aislada de Widrow en el campo del aprendizaje por refuerzo, sus contribuciones al aprendizaje supervisado ejercieron una influencia mucho mayor en la disciplina.

El término “crítico”, en el contexto del aprendizaje por refuerzo, se originó a partir del artículo de Widrow, Gupta y Maitra, y se ha convertido en un concepto esencial en esta rama de la inteligencia artificial. Esta aproximación implica que el sistema aprende a través de la evaluación de sus acciones, en lugar de depender de un instructor externo.

La investigación sobre el aprendizaje de autómatas ha tenido una influencia significativa en el desarrollo de la investigación moderna en el campo del aprendizaje por refuerzo. Estos métodos se centran en la resolución de un problema de aprendizaje selectivo y no asociativo conocido como el “bandido de n brazos” (Multi-armed bandit) en referencia a las máquinas tragamonedas. Los autómatas de aprendizaje son dispositivos simples con limitada capacidad de memoria diseñados para mejorar las probabilidades de obtener recompensas en estos tipos de problemas.

El origen de los autómatas de aprendizaje se remonta a la década de 1960, gracias al trabajo del matemático y físico ruso M. L. Tsetlin y sus colaboradores. Desde entonces, esta área ha experimentado un crecimiento significativo, especialmente en el ámbito de la ingeniería. Uno de los avances clave ha sido el desarrollo de autómatas de aprendizaje estocástico, que son métodos que permiten ajustar las probabilidades de acción en función de las señales de recompensa.

Los autómatas de aprendizaje estocástico tienen sus raíces en investigaciones anteriores en psicología. Inicialmente, William Estes en 1950 trabajó en una teoría estadística del aprendizaje, y posteriormente, psicólogos como Robert Bush y el estadístico Frederick Mosteller en 1955 contribuyeron al desarrollo de estas teorías de aprendizaje estadístico. Estas ideas se expandieron a la economía, donde investigadores adoptaron las teorías de aprendizaje estadístico, lo que llevó a investigaciones en el campo del aprendizaje por refuerzo.

La investigación en este ámbito comenzó en 1973, cuando se aplicaron las teorías de Bush y Mosteller a una serie de modelos económicos clásicos. Uno de los objetivos fundamentales fue estudiar agentes artificiales que se asemejaran más a personas reales que a los agentes económicos idealizados tradicionales. Esta perspectiva se amplió aún más al considerar el aprendizaje por refuerzo en el contexto de la teoría de juegos.

A pesar de que el aprendizaje por refuerzo en economía se desarrolló en gran medida de manera independiente en comparación con los primeros trabajos en inteligencia artificial, es importante destacar que hoy en día el aprendizaje por refuerzo y la teoría de juegos siguen siendo temas de gran interés en ambos campos. Esta intersección entre la inteligencia artificial y la economía promete seguir generando avances significativos en el futuro.

En 1975, John Holland formuló una teoría integral sobre sistemas adaptativos fundamentada en principios de selección. Sus primeros trabajos abordaron la noción de prueba y error, y se aplicaron en contextos como los métodos evolutivos y el problema del bandido de n brazos. Sin embargo, en 1986, introdujo un concepto revolucionario: los sistemas clasificadores. Estos sistemas representaron un hito en el aprendizaje por refuerzo, al incorporar funciones de asociación y valor en su estructura. Un componente esencial de los sistemas clasificadores de Holland siempre fue el algoritmo genético, un método evolutivo cuyo propósito central era desarrollar representaciones eficaces.

A lo largo de los años, numerosos investigadores han ampliado y profundizado en los sistemas clasificadores, convirtiéndolos en una vertiente crucial de la investigación en aprendizaje por refuerzo. Sin embargo, es importante destacar que, a pesar de su contribución significativa al aprendizaje por refuerzo, los algoritmos genéticos no suelen considerarse como sistemas de aprendizaje por refuerzo en sí mismos, aunque han captado una atención considerable.

Por otra parte, Harry Klopf desempeñó un papel fundamental entre 1972 y 1982 al revitalizar la perspectiva de prueba y error en el contexto del aprendizaje por refuerzo en el campo de la inteligencia artificial. Klopf identificó una carencia esencial en el enfoque del aprendizaje supervisado, donde se pasaba por alto la dimensión hedónica del comportamiento. Esta dimensión se refiere al impulso intrínseco de lograr ciertos resultados en el entorno y de controlar dicho entorno para alcanzar metas deseadas, evitando metas indeseadas.

Además, las investigaciones de Klopf y otros estudios subsecuentes destacaron cómo el aprendizaje por refuerzo podía abordar cuestiones fundamentales en el ámbito del aprendizaje de redes neuronales, especialmente en lo que respecta a la creación de algoritmos de aprendizaje para redes neuronales multicapa. Esto marcó un hito en la intersección entre el aprendizaje por refuerzo y las redes neuronales, brindando nuevas perspectivas para avanzar en el campo.

Pasamos ahora al tercer hilo de la historia del aprendizaje por refuerzo, el relacionado con el aprendizaje por diferencia temporal, pero eso lo vamos a dejar para la tercera parte.

Lecturas sugeridas

Y también puedes visitar el resto de artículos sobre Aprendizaje por refuerzo:

Aprendizaje por refuerzo (RL)

14 stories

--

--

Joan Cerretani

Soy Joan Cerretani, Lic. en Ciencias Físicas de la UBA y Mtr. en Ciencia de Datos.