Introduction
最大化数值回报
多级决策(马尔可夫过程)
learn by trial-and-error
行动不一定只会影响即刻的回报,同时也会影响未来的回报 (Delayed effect)
element:
Maze example:
给一个s,就能得一个a
具体的目标:
returns: