Introduction

Untitled

Untitled

最大化数值回报
多级决策（马尔可夫过程）
learn by trial-and-error
行动不一定只会影响即刻的回报，同时也会影响未来的回报 (Delayed effect)

element:

Untitled

Maze example:

Untitled

Untitled

给一个s，就能得一个a

Untitled

具体的目标：

Untitled

returns：

Untitled

Untitled