
上QQ阅读APP看书,第一时间看更新
3.3.1 策略梯度
策略梯度的思想是把策略π参数化为πθ,将累积奖励的期望作为目标函数L(πθ):

并计算出关于策略的梯度,沿着梯度的方向不断调整动作,逐渐得到最优策略。
策略梯度会考虑在当前策略之后所有可能出现的轨迹,并求取这些轨迹对应的平均累积奖励。在进行单步动作时,需要对累积奖励在状态空间和动作空间上求关于状态转移概率和策略的二重积分:

其中,R(s,a)表示在状态s下采取动作a时得到的奖励,表示在策略π下状态s的转移概率。在进行连续N步动作时,我们可以使用Q值函数替代R(s,a):

在实际运算中,由于我们无法对状态和动作的二重积分进行直接计算,因此,可以使用一种相对简单的处理方式,即使用蒙特卡洛采样法对梯度进行估计,采样m条轨迹,每条轨迹对应T步动作,求取平均目标函数梯度:
