4. Programación dinámica
Acceso abierto al capítulo 4 del libro Introducción al aprendizaje por refuerzo profundo

En este capítulo introducimos el algoritmo Value Iteration como máximo exponente de la programación dinámica, que pone en valor la ecuación de Bellman presentada en el capítulo anterior. Es muy conveniente empezar entendiendo los fundamentos de la programación dinámica…