
上QQ阅读APP看书,第一时间看更新
3.2 基于值函数的强化学习
3.2.1 值函数
在强化学习中,为了使智能体学到一个好策略,需要赋予智能体评估策略好坏的能力。一种最直接的方式就是在某个特定的状态下,为每次动作赋予相应的评估价值。如果在该状态下采取某一动作后,未来能够获得的累积奖励期望值越高,那么这个动作的评估价值就越大。
我们可以使用动作值函数Qπ(s,a)对动作进行价值评估:

也就是智能体在状态s采取某一特定的动作a后可以得到评估价值Qπ(s,a)。相应地,每个状态的价值可以定义为从当前状态到终止状态能够获得的累积奖励的期望,称为状态值函数Vπ(s):

Qπ(s,a)和Vπ(s)之间的相对关系可以使用Bellman方程表示:

由于值函数是对具体状态和动作进行价值评估,因此,基于值函数的强化学习方法不适用于动作空间连续的强化学习问题。