Algoritmos de aprendizaje por refuerzo

Jupyter notebook con la solución a la aplicación de los siguientes algoritmos al problema Cliff Walking:

Descripción del problema

El entorno CliffWalking consiste en un agente que se mueve en una cuadrícula de dimensiones 12x4 (ancho x alto). En cada paso, el agente tiene 4 opciones de acción o movimiento: ARRIBA, DERECHA, ABAJO, IZQUIERDA. La posición de cada casilla viene dada por una pareja de números naturales [x, y], donde la posición de la esquina de arriba a la izquierda sería el origen de coordenadas [0, 0]. El agente siempre sale de la misma casilla [0, 3] (esquina abajo izquierda) y el juego termina cuando el agente llega a la casilla de llegada [11, 3] (esquina abajo derecha).

El entorno se corresponde con el ejemplo 'Cuadrícula con precipicio' explicado en la sección 3.2.1. del módulo "Métodos de Diferencia Temporal". El problema radica en que en todas las casillas la recompensa inmediata es R=-1 excepto en las casillas que unen en línea recta la casilla de salida con la de llegada, casillas [1, 3] a [10, 3]. En estas casillas, que simulan un precipicio, la recompensa es R=-100 y se vuelve a la casilla inicial.

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
CliffWalking.png		CliffWalking.png
README.md		README.md
cliff_env_v2.py		cliff_env_v2.py
cliff_walking_algs.ipynb		cliff_walking_algs.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Algoritmos de aprendizaje por refuerzo

Descripción del problema

About

Releases

Packages

Languages

gpbonillas/algs_reinforcement_learning

Folders and files

Latest commit

History

Repository files navigation

Algoritmos de aprendizaje por refuerzo

Descripción del problema

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages