Aprendizaje por refuerzo vía Procesos de Decisión de Markov: Caso Descontado

Date
2024-07
Journal Title
Journal ISSN
Volume Title
Publisher
Benemérita Universidad Autónoma de Puebla
Abstract
"El objetivo de este trabajo es dar una descripción matemática del Aprendizaje por Refuerzo; un paradigma inspirado en la interacción con el ambiente como medio de aprendizaje. Se presenta la teoría de Procesos de Decisión de Markov y el problema de control óptimo, la base que transcribe el paradigma de aprendizaje al lenguaje matemático. Las técnicas de Programación Dinámica y la Aproximación Estocástica son representadas mediante los algoritmos de Iteración de Valores y Q-learning respectivamente. Ambos algoritmos son implementados para la solución en distintos sistemas tomados como ejemplos".
Description
Keywords
Citation
Document Viewer
Select a file to preview:
Can't see the file? Try reloading