地月空间入门指南地月空间入门指南
卫星轨道仿真教学平台
地月空间术语词典
资源与工具
蓝军研究
Space News
AI问答
论坛
首页
Gitee
GitHub
  • 简体中文
  • English
卫星轨道仿真教学平台
地月空间术语词典
资源与工具
蓝军研究
Space News
AI问答
论坛
首页
Gitee
GitHub
  • 简体中文
  • English
  • 全站导览

    • 首页(知识总览)
    • 入门 · 地月空间是什么
    • 轨道 · 飞行器运行轨道
    • 前沿 · 科研方向与机构
    • 术语 · 定义与概念
    • 工具 · 数据与代码
    • 动态 · 航天新闻归档
    • 专题 · 蓝军研究
  • 地月空间术语词典(定义与概念检索)

    • 地月空间术语词典
    • 动力学与数学基础

      • 圆形限制性三体问题(CR3BP)
      • 低推力增强圆形限制性三体问题(CR3BP-LT)
      • A2PPO(注意力增强近端策略优化)
      • 课程学习(Curriculum Learning)
      • 低推力转移的马尔可夫决策过程(MDP) formulation
      • 广义优势估计(GAE)
      • 直接配点法(Direct Collocation)
      • 拟双圆四体问题(QBCP)
      • 星历模型(Ephemeris Model)
      • 作用角变量(Action-Angle Variables)
      • Birkhoff-Gustavson标准型(Birkhoff-Gustavson Normal Form)
      • 中心流形(Central Manifold)
      • 庞加莱截面(Poincaré Section)
    • 任务轨道

      • 远距离逆行轨道(DRO)
      • 近直线晕轨道(NRHO)
      • 地月L1/L2晕轨道(EML1/EML2 Halo Orbit)
      • DRO三星座
    • 导航技术与系统

      • X射线脉冲星导航技术
      • 地球GNSS弱信号导航
      • 星间链路导航
      • 地月混合导航
      • 轨道辨识(Orbit Identification)
      • 地月空间时空基准 (Cislunar Spatiotemporal Reference)
      • 月球网(LunaNet)
      • 月光计划
      • 月球导航星座
      • 天都一号
    • 月球矿物

      • 镁嫦娥石
      • 铈嫦娥石
    • 项目与任务

      • 阿尔忒弥斯计划
      • LuGRE实验
    • 其他技术

      • 纵向耦合振动(POGO)
      • EXOSIMS
      • 太空交通管控(STM)
      • 星伞(Starshade)
      • 核热推进(NTP)
      • 地月空间导航发展展望
    • 机构和组织

      • 安杜里尔工业公司
      • 博思艾伦汉密尔顿公司
      • 通用动力任务系统公司
      • GITAI美国公司
      • 洛克希德·马丁公司
      • 诺斯罗普·格鲁曼公司
      • Quindar公司
      • 雷神导弹与防务公司
      • Sci-Tec公司
      • SpaceX公司
      • True Anomaly公司
      • Turion Space公司

A2PPO(注意力增强近端策略优化)

Attention-Augmented Proximal Policy Optimization

定义

A2PPO 是一种面向地月空间低推力轨迹优化的深度强化学习(Deep Reinforcement Learning, DRL)框架,由 Ul Haq、Dai、Du 等人于 2026 年提出[1]。其核心创新在于将方向交叉注意力机制(directional cross-attention mechanism)集成到标准 PPO(Proximal Policy Optimization)算法的 Actor-Critic 架构中,使策略网络能够选择性关注 Critic 网络认为对未来价值重要的状态特征,从而提升混沌多体动力学环境中的学习稳定性和样本效率。

算法架构

核心组件

A2PPO 的前向传播流程如下:

  1. 共享 MLP 编码器:将原始状态 st∈R16s_t \in \mathbb{R}^{16}st​∈R16 编码为隐向量 ht∈R128h_t \in \mathbb{R}^{128}ht​∈R128
  2. 角色投影:通过两个独立的线性投影 Wa,Wc∈R128×128W_a, W_c \in \mathbb{R}^{128 \times 128}Wa​,Wc​∈R128×128 将 hth_tht​ 投影为 Actor 和 Critic 特有的角色向量
  3. 分词化(Tokenization):将角色向量 reshape 为 M=4M=4M=4 个子令牌,每个大小 d=32d=32d=32(D=M×d=128D = M \times d = 128D=M×d=128),并添加学习型位置嵌入
  4. 方向交叉注意力:Actor 令牌作为 Query,Critic 令牌作为 Key 和 Value,通过多头交叉注意力(Nh=2N_h=2Nh​=2 头)进行特征融合
  5. 融合输出:通过残差连接和逐令牌前馈网络(FFN)后,经过层归一化并展平得到融合隐向量 zt∈R128z_t \in \mathbb{R}^{128}zt​∈R128

关键设计:方向性

A2PPO 采用** Critic → Actor** 的不对称方向交叉注意力设计:策略表示以值函数的评估信号为条件,而 Critic 保持与 Actor 探索噪声的解耦。这种设计在消融实验中优于自注意力变体,显著提升了训练稳定性。

PPO 损失函数

A2PPO 优化以下复合损失:

J(θ,ψ)=−Lclip(θ)+cv12E[(Vψ(zt)−R^t)2]−ceE[H(πθ(⋅∣zt))]J(\theta, \psi) = -\mathcal{L}^{\mathrm{clip}}(\theta) + c_v \frac{1}{2} \mathbb{E}\left[ (V_\psi(z_t) - \hat{R}_t)^2 \right] - c_e \mathbb{E}\left[ \mathcal{H}(\pi_\theta(\cdot|z_t)) \right] J(θ,ψ)=−Lclip(θ)+cv​21​E[(Vψ​(zt​)−R^t​)2]−ce​E[H(πθ​(⋅∣zt​))]

其中三项分别为:策略裁剪损失、价值函数误差(权重 cvc_vcv​)和策略熵正则化(权重 cec_ece​)。

训练策略

课程学习(Curriculum Learning)

A2PPO 采用渐进式课程学习策略,逐步收紧成功阈值:初始阶段使用宽松的终端位置/速度容忍度(如 Δd=5×10−3\Delta d = 5 \times 10^{-3}Δd=5×10−3),随训练推进逐步收紧至 Δd=1×10−3\Delta d = 1 \times 10^{-3}Δd=1×10−3。这一策略避免了 CR3BP 混沌动力学环境中的初期不稳定性。

超参数调优

使用 Optuna 框架进行两阶段超参数搜索(各 100 轮),关键参数包括学习率(1.315×10−31.315 \times 10^{-3}1.315×10−3)、PPO 裁剪范围(0.249)、熵系数(0.01474)、GAE-λ\lambdaλ(0.915)等。

性能评估

在四个地月空间低推力转移场景中的评估结果:

场景描述ToF (天)燃料 (kg)对比直接配点
S1L₂ Halo → Halo4.952.084.99天 / 1.28kg
S2L₂ Halo → NRHO8.385.007.26天 / 5.29kg
S3NRHO → DRO7.605.107.63天 / 5.11kg
S4多圈 Halo → Halo(极低推力)33.60.9733.12天 / 0.97kg

A2PPO 在无任何初始猜测的条件下,自主学习到的轨迹与直接配点法基准解高度接近,同时在多圈转移场景中显著优于 SAC 基线(37.37天 / 1.06kg)。

鲁棒性

  • 蒙特卡洛扰动测试:100 次初始状态扰动(σ=10−3\sigma = 10^{-3}σ=10−3 NDU)下达到 100% 成功率
  • 推力退化容忍:在高达 32% 确定性推力衰减下仍能完成任务,无需重训练

与相关概念的关系

  • 标准 PPO:A2PPO 在标准 PPO 基础上增加了方向交叉注意力模块,训练收敛速度和最终奖励均显著优于 Vanilla PPO
  • SAC(Soft Actor-Critic):作为对比基线,A2PPO 在多圈转移场景中以更短的时间和更少的燃料胜出
  • GTrXL:另一种 Transformer 增强的 RL 方法,A2PPO 的交叉注意力机制与其不同,专注于 Actor-Critic 间的特征融合
  • 广义优势估计(GAE):A2PPO 中用于优势函数估计的关键组件
  • 课程学习(Curriculum Learning):A2PPO 采用的渐进式训练策略
  • 低推力转移 MDP:A2PPO 的问题形式化框架

参考文献

  • [1] Ul Haq I U, Dai H, Du C. Autonomous low-thrust trajectory optimization in cislunar space via attention-augmented reinforcement learning. Aerospace Science and Technology, 2026.
完善页面
最近更新: 2026/4/27 08:30
Contributors: Hermes Agent
Prev
低推力增强圆形限制性三体问题(CR3BP-LT)
Next
课程学习(Curriculum Learning)
地月空间入门指南
地月空间入门指南探索地月空间知识
在 GitHub 查看

导航

  • 首页
  • 关于本站
  • 航天动态
  • 术语表

内容

  • 地月轨道
  • 研究前沿
  • 资源工具
  • 蓝队研究

English

  • Home
  • About
  • Space News
  • Glossary

关注我们

© 2026 地月空间入门指南  |  湘ICP备2026006405号-1
友情链接:智慧学习助手 UStudy航天任务工具箱 ATK
支持我
鼓励和赞赏我感谢您的支持