4. Programación dinámica

Acceso abierto al capítulo 4 del libro Introducción al aprendizaje por refuerzo profundo

https://TORRES.AI/aprendizaje-por-refuerzo

En este capítulo introducimos el algoritmo Value Iteration como máximo exponente de la programación dinámica, que pone en valor la ecuación de Bellman presentada en el capítulo anterior. Es muy conveniente empezar entendiendo los fundamentos de la programación dinámica…

--

--

--

El objetivo de esta publicación es ser una guía para los lectores y lectoras que quieran iniciarse en los conceptos teóricos del aprendizaje por refuerzo profundo y al mismo tiempo facilitarles un conocimiento práctico con la programación de los principales algoritmos.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store
Jordi TORRES.AI

Jordi TORRES.AI

Professor at UPC Barcelona Tech & Barcelona Supercomputing Center. Research focuses on Supercomputing & Artificial Intelligence https://torres.ai @JordiTorresAI

More from Medium

Have You Ever Heard of Nvidia’s AI GauGAN2?

My painting vs. result of GauGAN2

A Few Notes About Text Tokenization

Choose your words puzzle. Photo by Brett Jordan on Unsplash.

Developing Reinforcement Learning Environment Using OpenAI Gym

Collaboration and Competition in Reinforcement Learning Applications