地月空间入门指南地月空间入门指南
卫星轨道仿真教学平台
地月空间术语词典
资源与工具
蓝军研究
Space News
AI问答
论坛
首页
Gitee
GitHub
  • 简体中文
  • English
卫星轨道仿真教学平台
地月空间术语词典
资源与工具
蓝军研究
Space News
AI问答
论坛
首页
Gitee
GitHub
  • 简体中文
  • English
  • 全站导览

    • 首页(知识总览)
    • 入门 · 地月空间是什么
    • 轨道 · 飞行器运行轨道
    • 前沿 · 科研方向与机构
    • 术语 · 定义与概念
    • 工具 · 数据与代码
    • 动态 · 航天新闻归档
    • 专题 · 蓝军研究
  • 地月空间术语词典(定义与概念检索)

    • 地月空间术语词典
    • 动力学与数学基础

      • 圆形限制性三体问题(CR3BP)
      • 低推力增强圆形限制性三体问题(CR3BP-LT)
      • A2PPO(注意力增强近端策略优化)
      • 课程学习(Curriculum Learning)
      • 低推力转移的马尔可夫决策过程(MDP) formulation
      • 广义优势估计(GAE)
      • 直接配点法(Direct Collocation)
      • 拟双圆四体问题(QBCP)
      • 星历模型(Ephemeris Model)
      • 作用角变量(Action-Angle Variables)
      • Birkhoff-Gustavson标准型(Birkhoff-Gustavson Normal Form)
      • 中心流形(Central Manifold)
      • 庞加莱截面(Poincaré Section)
    • 任务轨道

      • 远距离逆行轨道(DRO)
      • 近直线晕轨道(NRHO)
      • 地月L1/L2晕轨道(EML1/EML2 Halo Orbit)
      • DRO三星座
    • 导航技术与系统

      • X射线脉冲星导航技术
      • 地球GNSS弱信号导航
      • 星间链路导航
      • 地月混合导航
      • 轨道辨识(Orbit Identification)
      • 地月空间时空基准 (Cislunar Spatiotemporal Reference)
      • 月球网(LunaNet)
      • 月光计划
      • 月球导航星座
      • 天都一号
    • 月球矿物

      • 镁嫦娥石
      • 铈嫦娥石
    • 项目与任务

      • 阿尔忒弥斯计划
      • LuGRE实验
    • 其他技术

      • 纵向耦合振动(POGO)
      • EXOSIMS
      • 太空交通管控(STM)
      • 星伞(Starshade)
      • 核热推进(NTP)
      • 地月空间导航发展展望
    • 机构和组织

      • 安杜里尔工业公司
      • 博思艾伦汉密尔顿公司
      • 通用动力任务系统公司
      • GITAI美国公司
      • 洛克希德·马丁公司
      • 诺斯罗普·格鲁曼公司
      • Quindar公司
      • 雷神导弹与防务公司
      • Sci-Tec公司
      • SpaceX公司
      • True Anomaly公司
      • Turion Space公司

广义优势估计(GAE)

Generalized Advantage Estimation, GAE

定义

广义优势估计(Generalized Advantage Estimation,GAE)是强化学习中一种用于估计优势函数(advantage function)的偏差-方差平衡技术,由 Schulman 等人在 2015 年提出[1]。GAE 通过对多个时间差分(TD)残差进行指数加权平均,为策略梯度算法(如 PPO、A2PPO)提供低方差但几乎无偏的优势估计。

背景:优势函数与 TD 残差

在 Actor-Critic 强化学习中,优势函数定义为:

Aπ(st,at)=Qπ(st,at)−Vπ(st)A^\pi(s_t, a_t) = Q^\pi(s_t, a_t) - V^\pi(s_t) Aπ(st​,at​)=Qπ(st​,at​)−Vπ(st​)

直接计算需要知道真实价值函数 VπV^\piVπ,实际中必须用近似。简单的一步 TD 优势估计为:

At(1)=δt=rt+γV(st+1)−V(st)A_t^{(1)} = \delta_t = r_t + \gamma V(s_{t+1}) - V(s_t) At(1)​=δt​=rt​+γV(st+1​)−V(st​)

但一步估计方差低但偏差大(因为依赖不准确的价值估计)。nnn 步回报可以减少偏差但方差增大。

GAE 定义

GAE 通过指数加权平均 nnn 步 TD 残差来平衡偏差与方差:

A^tGAE(λ,γ)=∑k=0∞(γλ)kδt+k\hat{A}_t^{\text{GAE}(\lambda, \gamma)} = \sum_{k=0}^{\infty} (\gamma\lambda)^{k} \delta_{t+k} A^tGAE(λ,γ)​=k=0∑∞​(γλ)kδt+k​

其中 λ∈[0,1]\lambda \in [0,1]λ∈[0,1] 控制偏差-方差权衡:

  • λ=0\lambda = 0λ=0:退化为一步 TD(低方差,高偏差)
  • λ=1\lambda = 1λ=1:类似于 nnn 步回报(低偏差,高方差)

实际中由于有限 horizon,使用递归形式计算:

A^t=δt+γλ(1−dt)A^t+1\hat{A}_t = \delta_t + \gamma\lambda(1-d_t)\hat{A}_{t+1} A^t​=δt​+γλ(1−dt​)A^t+1​

其中 dtd_tdt​ 为终止信号(dt=1d_t=1dt​=1 表示 episode 在 ttt 步终止)。

在 A2PPO 中的应用

在 A2PPO 算法中,GAE 用于优势估计,其超参数设置[2]为:

参数值含义
γ\gammaγ0.99折扣因子
λ\lambdaλ (GAE-λ\lambdaλ)0.915GAE 参数

在 A2PPO 的消融实验中,GAE 与注意力机制的结合使得策略梯度估计更加稳定,显著优于 Vanilla PPO(最终奖励 1071.41±7.751071.41 \pm 7.751071.41±7.75 vs 344.87±563.71344.87 \pm 563.71344.87±563.71)。

GAE 的方差控制机制

GAE 的方差控制来源于其有限记忆特性:远处未来的 TD 残差以 (γλ)k(\gamma\lambda)^k(γλ)k 指数衰减。更重要的是,GAE 的方差与 λ\lambdaλ 成正相关——增大 λ\lambdaλ 会增加估计的偏差但减少方差,因为更多依赖实际累积回报。

相关概念

  • A2PPO(注意力增强近端策略优化):GAE 在地月空间轨迹优化中的应用框架
  • 低推力转移 MDP:GAE 所服务的强化学习问题形式化

参考文献

  • [1] Schulman J, Moritz P, Levine S, et al. High-dimensional continuous control using generalized advantage estimation[J]. arXiv:1512.04455, 2015.
  • [2] Ul Haq I U, Dai H, Du C. Autonomous low-thrust trajectory optimization in cislunar space via attention-augmented reinforcement learning[J]. Aerospace Science and Technology, 2026.
完善页面
最近更新: 2026/4/27 08:30
Contributors: Hermes Agent
Prev
低推力转移的马尔可夫决策过程(MDP) formulation
Next
直接配点法(Direct Collocation)
地月空间入门指南
地月空间入门指南探索地月空间知识
在 GitHub 查看

导航

  • 首页
  • 关于本站
  • 航天动态
  • 术语表

内容

  • 地月轨道
  • 研究前沿
  • 资源工具
  • 蓝队研究

English

  • Home
  • About
  • Space News
  • Glossary

关注我们

© 2026 地月空间入门指南  |  湘ICP备2026006405号-1
友情链接:智慧学习助手 UStudy航天任务工具箱 ATK
支持我
鼓励和赞赏我感谢您的支持