地月空间入门指南地月空间入门指南
卫星轨道仿真教学平台
地月空间术语词典
资源与工具
蓝军研究
Space News
AI问答
论坛
首页
Gitee
GitHub
  • 简体中文
  • English
卫星轨道仿真教学平台
地月空间术语词典
资源与工具
蓝军研究
Space News
AI问答
论坛
首页
Gitee
GitHub
  • 简体中文
  • English
  • 全站导览

    • 首页(知识总览)
    • 入门 · 地月空间是什么
    • 轨道 · 飞行器运行轨道
    • 前沿 · 科研方向与机构
    • 术语 · 定义与概念
    • 工具 · 数据与代码
    • 动态 · 航天新闻归档
    • 专题 · 蓝军研究
  • 地月空间术语词典(定义与概念检索)

    • 地月空间术语词典
    • 基础概念

      • 空天飞行器(Aerospace Vehicle)
      • 主动段(Powered Phase)
      • 在轨段(Orbital Phase)
      • 再入段(Reentry Phase)
      • 自由段(Free-flight Phase)
      • 升阻比(Lift-to-Drag Ratio)
      • 齐奥尔科夫斯基公式(Tsiolkovsky Rocket Equation)
      • 天球(Celestial Sphere)
      • 天球坐标系(Celestial Coordinate System)
      • 岁差(Precession)
      • 章动(Nutation)
      • 地球椭球体(Earth Ellipsoid)
      • 惯性导航系统(Inertial Navigation System, INS)
      • 标准大气(Standard Atmosphere)
      • 协调世界时(Coordinated Universal Time, UTC)
      • GPS 时(GPS Time)
      • 儒略日(Julian Date, JD)
      • 地心惯性坐标系(Earth-Centered Inertial Frame, ECI)
      • 地心固联坐标系(Earth-Centered Earth-Fixed Frame, ECEF)
      • 体坐标系(Body Frame)
      • 速度坐标系(Velocity Frame)
      • 引力位(Gravitational Potential)
      • 重力与引力(Gravity vs Gravitation)
      • 空气动力系数(Aerodynamic Coefficient)
      • 压力中心(Center of Pressure)
      • 空气动力矩(Aerodynamic Moment)
      • 推力(Thrust)
      • 比冲(Specific Impulse)
      • 过载(Load Factor)
      • 主动段弹道方程(Powered Phase Trajectory Equation)
      • 瞬时平衡假设(Instantaneous Balance Assumption)
      • 俯仰程序角(Pitch Program Angle)
      • 纵向运动与侧向运动(Longitudinal and Lateral Motion)
      • 速度倾角(Velocity Inclination Angle)
      • 主动段转弯过程(Powered Phase Turning Process)
      • 二体问题(Two-Body Problem)
      • 比动量矩(Specific Angular Momentum)
      • 轨道方程(Orbital Equation)
      • 活力公式(Vis-Viva Equation)
      • 开普勒方程(Kepler's Equation)
      • 真近点角(True Anomaly)
      • 轨道根数(Orbital Elements)
      • 自由段弹道(Free-Flight Trajectory)
      • 命中方程(Hit Equation)
      • 最佳速度倾角(Optimal Velocity Inclination)
      • 最小能量弹道(Minimum Energy Trajectory)
      • 绝对射程(Absolute Range)
      • 能量参数(Energy Parameter)
      • 射程误差系数(Range Error Coefficient)
      • 摄动运动(Perturbation Motion)
      • 参数变分法(Variation of Parameters)
      • 高斯型摄动方程(Gaussian Perturbation Equations)
      • 拉格朗日型摄动方程(Lagrangian Perturbation Equations)
      • 地球扁率摄动(Earth Oblateness Perturbation)
      • 太阳同步轨道(Sun-Synchronous Orbit)
      • 冻结轨道(Frozen Orbit)
      • 总攻角(Total Angle of Attack)
      • 弹道系数(Ballistic Coefficient)
      • 零攻角再入(Zero-Angle-of-Attack Reentry)
      • 配平攻角(Trim Angle of Attack)
      • 再入走廊(Reentry Corridor)
      • 跳跃式再入(Skip Reentry)
      • 驻点热流(Stagnation Heat Flux)
      • 发射方位角(Launch Azimuth)
      • 重力转弯(Gravity Turn)
      • 推重比(Thrust-to-Weight Ratio)
      • 牛顿迭代法(Newton's Iteration Method)
      • 序列二次规划(Sequential Quadratic Programming)
      • 轨迹优化(Trajectory Optimization)
      • 入轨条件(Orbit Insertion Conditions)
      • 星下点轨迹(Subsatellite Track)
      • 回归轨道(Repeat Ground Track Orbit)
      • 覆盖角(Coverage Angle)
      • 受晒因子(Solar Exposure Factor)
      • 发射窗口(Launch Window)
      • Walker 星座(Walker Constellation)
      • 卫星环(Satellite Ring)
      • 轨道机动(Orbital Maneuver)
      • 霍曼转移(Hohmann Transfer)
      • 双椭圆转移(Bi-Elliptic Transfer)
      • 调相轨道(Phasing Orbit)
      • 特征速度(Characteristic Velocity)
      • 轨道捕获(Orbit Capture)
      • 有限推力轨道机动(Finite Thrust Maneuver)
    • 动力学与数学基础

      • 圆形限制性三体问题(CR3BP)
      • 低推力增强圆形限制性三体问题(CR3BP-LT)
      • A2PPO(注意力增强近端策略优化)
      • 课程学习(Curriculum Learning)
      • 低推力转移的马尔可夫决策过程(MDP) formulation
      • 广义优势估计(GAE)
      • 直接配点法(Direct Collocation)
      • 拟双圆四体问题(QBCP)
      • 星历模型(Ephemeris Model)
      • 作用角变量(Action-Angle Variables)
      • Birkhoff-Gustavson标准型(Birkhoff-Gustavson Normal Form)
      • 中心流形(Central Manifold)
      • 庞加莱截面(Poincaré Section)
      • CW方程(Clohessy-Wiltshire方程)
      • 拼接法(Patched Method)
      • 延拓(Continuation)
      • 微分修正(Differential Correction)
      • 庞加莱图(Poincaré Map)
      • 脉冲机动(Impulsive Maneuver)
      • 零速度曲面(Zero-Velocity Surface)
      • Hill三体模型(Hill Three-Body Problem)
      • 双圆四体模型(Bicircular Four-Body Problem)
      • 拟双圆四体模型(Quasi-Bicircular Four-Body Problem)
      • 频闪映射(Strobe Map)
      • 稳定集(Stability Set)
      • 逆向稳定集(Backward Stability Set)
      • 捕获集(Capture Set)
      • 平动点(Libration Point / Lagrange Point)
      • 混沌效应(Chaos Effect)
      • 延拓方法(Continuation Method)
      • 差分进化算法(Differential Evolution, DE)
      • 动态靶点法(Dynamic Target Method)
      • 初值优化法(Initial Value Optimization)
      • 雅可比积分(Jacobi Integral)
      • 单值矩阵(Monodromy Matrix)
      • 拼接点(Patch Point)
      • 打靶法(Shooting Method)
      • 太阳辐射压(Solar Radiation Pressure, SRP)
      • 稳定性指数(Stability Index)
      • 状态转移矩阵(State Transition Matrix, STM)
      • 靶点法(Targeting Method)
      • 二级微分修正法(Two-Level Differential Correction)
      • 批量部署(Batch Deployment)
      • 状态依赖旅行商问题(SDTSP)
      • Q-law控制律
      • 质量阶跃(Mass Discontinuity)
      • 春分点轨道根数(Equinoctial Orbital Elements)
      • 动态规划(Dynamic Programming)
      • 滑行弧(Coasting Arc)
    • 任务轨道

      • 远距离逆行轨道(DRO)
      • 近直线晕轨道(NRHO)
      • 地月L1/L2晕轨道(EML1/EML2 Halo Orbit)
      • DRO三星座
      • 转移轨道(Transfer Orbit)
      • 近月点(Perilune)
      • 远月点(Apolune)
      • 逆行(Retrograde)
      • 顺行(Prograde)
      • 停泊轨道(Parking Orbit)
      • 自由返回轨道(Free-Return Trajectory)
      • Halo 轨道(Halo Orbit)
      • Lissajous 轨道(Lissajous Orbit)
      • Lyapunov 轨道(Lyapunov Orbit)
      • 循环轨道(Cycler Trajectory)
      • 多圈Halo轨道(Multi-Revolution Halo Orbit)
      • 弹道捕获轨道(Ballistic Capture Orbit)
      • 低能量转移轨道(Low-Energy Transfer Orbit)
      • 全月面覆盖轨道(Full Lunar Surface Coverage Orbit)
      • 轨道保持(Orbit Keeping / Station-Keeping)
      • 拟周期轨道(Quasi-Periodic Orbit)
      • 共振轨道(Resonance Orbit)
      • 中心辐射式(Hub-and-spoke)
    • 导航技术与系统

      • X射线脉冲星导航技术
      • 地球GNSS弱信号导航
      • 星间链路导航
      • 地月混合导航
      • 轨道辨识(Orbit Identification)
      • 地月空间时空基准 (Cislunar Spatiotemporal Reference)
      • 月球网(LunaNet)
      • 月光计划
      • 月球导航星座
      • 天都一号
      • LiAISON自主导航(LiAISON Navigation)
    • 月球矿物

      • 镁嫦娥石
      • 铈嫦娥石
    • 项目与任务

      • 阿尔忒弥斯计划
      • LuGRE实验
    • 其他技术

      • 纵向耦合振动(POGO)
      • EXOSIMS
      • 太空交通管控(STM)
      • 星伞(Starshade)
      • 核热推进(NTP)
      • 地月空间导航发展展望
      • 非合作目标(Noncooperative Target)
      • 航天器意图识别(Spacecraft Intention Recognition)
      • 思维链提示(Chain-of-Thought Prompting)
      • 低秩适配(LoRA — Low-Rank Adaptation)
      • 提示调优(Prompt Tuning / P-tuning)
      • 地月空间(Cislunar Space)
      • 低地球轨道(Low Earth Orbit, LEO)
      • 月球借力(Lunar Gravity Assist, LGA)
      • 有动力月球借力(Powered Lunar Flyby, PLF)
      • 弱稳定边界(Weak Stability Boundary, WSB)
      • 入轨(Orbit Insertion)
      • 执行机构误差(Actuator Error)
      • Floquet 模态法(Floquet Mode Method)
      • 脉冲推力(Impulse Thrust)
      • 入轨误差(Insertion Error)
      • 导航误差(Navigation Error)
      • 倍周期分岔(Period-Doubling Bifurcation)
      • 反射系数(Reflection Coefficient, $C_R$)
      • 太阳常数(Solar Constant)
      • 在轨驻留平台(Orbital Residence Platform)
    • 机构和组织

      • 安杜里尔工业公司
      • 博思艾伦汉密尔顿公司
      • 通用动力任务系统公司
      • GITAI美国公司
      • 洛克希德·马丁公司
      • 诺斯罗普·格鲁曼公司
      • Quindar公司
      • 雷神导弹与防务公司
      • Sci-Tec公司
      • SpaceX公司
      • True Anomaly公司
      • Turion Space公司
    • 军事太空条令

      • 制天权(Space Superiority)
      • 竞争性耐力(Competitive Endurance)
      • DOTMLPF-P 条令框架(DOTMLPF-P Framework)
      • 任务式指挥(Mission Command)
      • 力量设计(Force Design)
      • 力量发展(Force Development)
      • 力量生成(Force Generation)
      • 力量运用(Force Employment)
      • 太空军生成模型(SPAFORGEN)
      • 任务三角洲(Mission Delta, MD)
      • 系统三角洲(System Delta, SYD)
      • 太空任务特遣队(SMTF)
      • 太空部队指挥官(COMSPACEFOR)
      • 军种组成司令部(Component Field Commands)
      • 空间域感知(Space Domain Awareness, SDA)
      • 反空间作战(Counterspace Operations)
      • 弹性分散式架构(Resilient/Disaggregated Architecture)
      • 作战测试与训练基础设施(Operational Test and Training Infrastructure, OTTI)
      • 金穹(Golden Dome)
      • 地月空间态势感知(Cislunar Space Situational Awareness)
    • 天文观测技术

      • 图像叠加(Image Stacking)
      • 移位叠加(Shift-and-Add, SAA)
      • 合成跟踪(Synthetic Tracking)
      • 恒星跟踪(Sidereal Tracking)
      • 信噪比(Signal-to-Noise Ratio, SNR)
      • 天体测量(Astrometry)
      • 源提取(Source Extraction)
      • 星历关联(Ephemeris Correlation)
      • 地月空间移动天体(Cislunar Moving Objects)
      • 月球眩光区(Lunar Glare Zone)
      • 图像配准(Image Registration)
      • 背景恒星消除(Background Star Elimination)
      • 分割图(Segmentation Map)
      • 热像素(Hot Pixel)
      • 连续覆盖率(Continuous Coverage, CP)
    • 卫星通信与测控

      • 北斗卫星系统(BeiDou Satellite System)
      • 星间链路(Inter-Satellite Link, ISL)
      • 全时无缝通信(All-Time Seamless Communication)
      • 星座组网(Constellation Networking)
      • 微波链路(Microwave Link)
      • 激光微波通信(Laser-Microwave Communication)

广义优势估计(GAE)

Generalized Advantage Estimation, GAE

定义

广义优势估计(Generalized Advantage Estimation,GAE)是强化学习中一种用于估计优势函数(advantage function)的偏差-方差平衡技术,由 Schulman 等人在 2015 年提出。GAE 通过对多个时间差分(TD)残差进行指数加权平均,为策略梯度算法(如 PPO、A2PPO)提供低方差但几乎无偏的优势估计。

背景:优势函数与 TD 残差

在 Actor-Critic 强化学习中,优势函数定义为:

Aπ(st,at)=Qπ(st,at)−Vπ(st)A^\pi(s_t, a_t) = Q^\pi(s_t, a_t) - V^\pi(s_t) Aπ(st​,at​)=Qπ(st​,at​)−Vπ(st​)

直接计算需要知道真实价值函数 VπV^\piVπ,实际中必须用近似。简单的一步 TD 优势估计为:

At(1)=δt=rt+γV(st+1)−V(st)A_t^{(1)} = \delta_t = r_t + \gamma V(s_{t+1}) - V(s_t) At(1)​=δt​=rt​+γV(st+1​)−V(st​)

但一步估计方差低但偏差大(因为依赖不准确的价值估计)。nnn 步回报可以减少偏差但方差增大。

GAE 定义

GAE 通过指数加权平均 nnn 步 TD 残差来平衡偏差与方差:

A^tGAE(λ,γ)=∑k=0∞(γλ)kδt+k\hat{A}_t^{\text{GAE}(\lambda, \gamma)} = \sum_{k=0}^{\infty} (\gamma\lambda)^{k} \delta_{t+k} A^tGAE(λ,γ)​=k=0∑∞​(γλ)kδt+k​

其中 λ∈[0,1]\lambda \in [0,1]λ∈[0,1] 控制偏差-方差权衡:

  • λ=0\lambda = 0λ=0:退化为一步 TD(低方差,高偏差)
  • λ=1\lambda = 1λ=1:类似于 nnn 步回报(低偏差,高方差)

实际中由于有限 horizon,使用递归形式计算:

A^t=δt+γλ(1−dt)A^t+1\hat{A}_t = \delta_t + \gamma\lambda(1-d_t)\hat{A}_{t+1} A^t​=δt​+γλ(1−dt​)A^t+1​

其中 dtd_tdt​ 为终止信号(dt=1d_t=1dt​=1 表示 episode 在 ttt 步终止)。

在 A2PPO 中的应用

在 A2PPO 算法中,GAE 用于优势估计,其超参数设置为:

参数值含义
γ\gammaγ0.99折扣因子
λ\lambdaλ (GAE-λ\lambdaλ)0.915GAE 参数

在 A2PPO 的消融实验中,GAE 与注意力机制的结合使得策略梯度估计更加稳定,显著优于 Vanilla PPO(最终奖励 1071.41±7.751071.41 \pm 7.751071.41±7.75 vs 344.87±563.71344.87 \pm 563.71344.87±563.71)。

GAE 的方差控制机制

GAE 的方差控制来源于其有限记忆特性:远处未来的 TD 残差以 (γλ)k(\gamma\lambda)^k(γλ)k 指数衰减。更重要的是,GAE 的方差与 λ\lambdaλ 成正相关——增大 λ\lambdaλ 会增加估计的偏差但减少方差,因为更多依赖实际累积回报。

核心要素

数学定义

GAE 通过对多个 TD 残差进行指数加权平均估计优势函数:A^tGAE(λ,γ)=∑k=0∞(γλ)kδt+k\hat{A}_t^{\text{GAE}(\lambda, \gamma)} = \sum_{k=0}^{\infty} (\gamma\lambda)^{k} \delta_{t+k}A^tGAE(λ,γ)​=∑k=0∞​(γλ)kδt+k​,其中 δt=rt+γV(st+1)−V(st)\delta_t = r_t + \gamma V(s_{t+1}) - V(s_t)δt​=rt​+γV(st+1​)−V(st​)。

关键性质

参数 λ∈[0,1]\lambda \in [0,1]λ∈[0,1] 控制偏差-方差权衡:λ=0\lambda = 0λ=0 退化为一步 TD(低方差、高偏差),λ=1\lambda = 1λ=1 类似于 nnn 步回报(低偏差、高方差)。

数值方法

使用递归形式 A^t=δt+γλ(1−dt)A^t+1\hat{A}_t = \delta_t + \gamma\lambda(1-d_t)\hat{A}_{t+1}A^t​=δt​+γλ(1−dt​)A^t+1​ 计算,其中 dtd_tdt​ 为终止信号。A2PPO 中 γ=0.99\gamma = 0.99γ=0.99、λ=0.915\lambda = 0.915λ=0.915。

应用价值

GAE 是 PPO 等策略梯度算法的关键组件,为地月空间低推力轨迹优化提供了稳定的优势估计。在 A2PPO 中,GAE 与注意力机制的结合显著提升了训练稳定性。

相关概念

  • A2PPO(注意力增强近端策略优化):GAE 在地月空间轨迹优化中的应用框架
  • 低推力转移 MDP:GAE 所服务的强化学习问题形式化

参考文献

  • Schulman J, Moritz P, Levine S, et al. High-dimensional continuous control using generalized advantage estimation[J]. arXiv:1512.04455, 2015.
  • Ul Haq I U, Dai H, Du C. Autonomous low-thrust trajectory optimization in cislunar space via attention-augmented reinforcement learning[J]. Aerospace Science and Technology, 2026.
完善页面
最近更新: 2026/4/29 15:49
Contributors: Hermes Agent, Cron Job
Prev
低推力转移的马尔可夫决策过程(MDP) formulation
Next
直接配点法(Direct Collocation)
地月空间入门指南
地月空间入门指南探索地月空间知识
在 GitHub 查看

导航

  • 首页
  • 关于本站
  • 航天动态
  • 术语表

内容

  • 地月轨道
  • 研究前沿
  • 资源工具
  • 蓝队研究

English

  • Home
  • About
  • Space News
  • Glossary

关注我们

© 2026 地月空间入门指南  |  湘ICP备2026006405号-1
友情链接:智慧学习助手 UStudy航天任务工具箱 ATK
支持我
鼓励和赞赏我感谢您的支持