Estados y observaciones en el aprendizaje por refuerzo (RL 2)

| | ,

Este es el segundo de una serie de artículos en los que vamos a ir revisando los conceptos fundamentales del aprendizaje por refuerzo. En el artículo anterior, vimos una introducción general y sentamos las bases de todo lo que comentaremos en este segundo artículo y en los siguientes. Ahora, vamos a hablar en profundidad del papel de los estados y observaciones en el contexto del aprendizaje por refuerzo.

Un estado “s” (state) es una descripción completa del entorno en un momento dado, mientras que una observación “o” (observation) es una descripción parcial del estado, y por tanto puede omitir algo de información.

En el aprendizaje por refuerzo profundo, los estados y observaciones normalmente se representan por un vector de valores reales, una matriz o un tensor de orden superior. Por ejemplo, una observación visual podría representarse mediante una matriz RGB que contenga los valores de los píxeles, mientras que el estado de un robot podría venir dado por los ángulos de sus articulaciones y sus velocidades.

Cuando el agente es capaz de observar el estado completo del entorno, decimos que el entorno está completamente observado (fully observed). Cuando el agente solo puede recoger una observación parcial, decimos que el entorno está parcialmente observado (partially observed).

¡Ojo! A veces se usa el símbolo del estado, “s”, en lugares donde técnicamente sería más apropiado utilizar el de las observaciones, “o”. Esto ocurre especialmente al hablar de cómo el agente escoge una acción: a menudo se indica con notación que la acción está condicionada al estado, cuando en la práctica, la acción está condicionada a la observación porque el agente no tiene acceso al estado. Recuerda: el entorno se encuentra en cierto estado, el agente analiza una observación de dicho estado y, en base a esa observación, decide cuál será su próxima acción.

En el siguiente artículo de esta serie, hablaremos de los espacios de acciones.

Anterior

Conceptos clave del aprendizaje por refuerzo (RL 1)

Espacio de acciones en el aprendizaje por refuerzo (RL 3)

Siguiente

Deja un comentario