广义优势估计（GAE）

Generalized Advantage Estimation, GAE

定义

广义优势估计（Generalized Advantage Estimation，GAE）是强化学习中一种用于估计优势函数（advantage function）的偏差-方差平衡技术，由 Schulman 等人在 2015 年提出。GAE 通过对多个时间差分（TD）残差进行指数加权平均，为策略梯度算法（如 PPO、A2PPO）提供低方差但几乎无偏的优势估计。

背景：优势函数与 TD 残差

在 Actor-Critic 强化学习中，优势函数定义为：

A^\pi(s_t, a_t) = Q^\pi(s_t, a_t) - V^\pi(s_t)

直接计算需要知道真实价值函数 $V^\pi$ ，实际中必须用近似。简单的一步 TD 优势估计为：

A_t^{(1)} = \delta_t = r_t + \gamma V(s_{t+1}) - V(s_t)

但一步估计方差低但偏差大（因为依赖不准确的价值估计）。 $n$ 步回报可以减少偏差但方差增大。

GAE 定义

GAE 通过指数加权平均 $n$ 步 TD 残差来平衡偏差与方差：

\hat{A}_t^{\text{GAE}(\lambda, \gamma)} = \sum_{k=0}^{\infty} (\gamma\lambda)^{k} \delta_{t+k}

其中 $\lambda \in [0,1]$ 控制偏差-方差权衡：

$\lambda = 0$ ：退化为一步 TD（低方差，高偏差）
$\lambda = 1$ ：类似于 $n$ 步回报（低偏差，高方差）

实际中由于有限 horizon，使用递归形式计算：

\hat{A}_t = \delta_t + \gamma\lambda(1-d_t)\hat{A}_{t+1}

其中 $d_t$ 为终止信号（ $d_t=1$ 表示 episode 在 $t$ 步终止）。

在 A2PPO 中的应用

在 A2PPO 算法中，GAE 用于优势估计，其超参数设置为：

参数	值	含义
$\gamma$	0.99	折扣因子
$\lambda$ (GAE- $\lambda$ )	0.915	GAE 参数

在 A2PPO 的消融实验中，GAE 与注意力机制的结合使得策略梯度估计更加稳定，显著优于 Vanilla PPO（最终奖励 $1071.41 \pm 7.75$ vs $344.87 \pm 563.71$ ）。

Schulman J, Moritz P, Levine S, et al. High-dimensional continuous control using generalized advantage estimation[J]. arXiv:1512.04455, 2015.
Ul Haq I U, Dai H, Du C. Autonomous low-thrust trajectory optimization in cislunar space via attention-augmented reinforcement learning[J]. Aerospace Science and Technology, 2026.

广义优势估计（GAE）

定义

背景：优势函数与 TD 残差

GAE 定义

在 A2PPO 中的应用

GAE 的方差控制机制

核心要素

数学定义

关键性质

数值方法

应用价值

相关概念

参考文献