Cruz Suárez, Hugo AdánCRUZ SUAREZ, HUGO ADAN; 202875Juárez Morales, Josué2024-10-042024-10-042024-07https://hdl.handle.net/20.500.12371/21495"El objetivo de este trabajo es dar una descripción matemática del Aprendizaje por Refuerzo; un paradigma inspirado en la interacción con el ambiente como medio de aprendizaje. Se presenta la teoría de Procesos de Decisión de Markov y el problema de control óptimo, la base que transcribe el paradigma de aprendizaje al lenguaje matemático. Las técnicas de Programación Dinámica y la Aproximación Estocástica son representadas mediante los algoritmos de Iteración de Valores y Q-learning respectivamente. Ambos algoritmos son implementados para la solución en distintos sistemas tomados como ejemplos".pdfspaCIENCIAS FÍSICO MATEMÁTICAS Y CIENCIAS DE LA TIERRAProceso de MarkovProcesos estocásticosProcesos estocásticosOptimización matemáticaAprendizaje por refuerzo vía Procesos de Decisión de Markov: Caso DescontadoTesis de maestríaopenAccess