La formulación de programación dinámica para este problema es
Etapa n = n-ésima jugada del juego (n=1,2,3)
xn = número de fichas que debe apostar en la etapa n.
Estado sn = número de fichas disponibles para comenzar la etapa n.
Se escogió esta definición del estado porque proporciona la información necesaria sobre la situación actual para poder tomar una decisión óptima sobre cuántas fichas apostar la siguiente jugada.
Como el objetivo es maximizar la probabilidad de que al joven gane la apuesta, la función objetivo que debe maximizarse en cada etapa es la probabilidad de terminar las tres jugadas con cinco fichas o más. Por esta razón.
No hay comentarios.:
Publicar un comentario