地月空间入门指南地月空间入门指南
卫星轨道仿真教学平台
地月空间术语词典
资源与工具
蓝军研究
Space News
AI问答
论坛
首页
Gitee
GitHub
  • 简体中文
  • English
卫星轨道仿真教学平台
地月空间术语词典
资源与工具
蓝军研究
Space News
AI问答
论坛
首页
Gitee
GitHub
  • 简体中文
  • English
  • 全站导览

    • 首页(知识总览)
    • 入门 · 地月空间是什么
    • 轨道 · 飞行器运行轨道
    • 前沿 · 科研方向与机构
    • 术语 · 定义与概念
    • 工具 · 数据与代码
    • 动态 · 航天新闻归档
    • 专题 · 蓝军研究
  • 地月空间术语词典(定义与概念检索)

    • 地月空间术语词典
    • 动力学与数学基础

      • 圆形限制性三体问题(CR3BP)
      • 低推力增强圆形限制性三体问题(CR3BP-LT)
      • A2PPO(注意力增强近端策略优化)
      • 课程学习(Curriculum Learning)
      • 低推力转移的马尔可夫决策过程(MDP) formulation
      • 广义优势估计(GAE)
      • 直接配点法(Direct Collocation)
      • 拟双圆四体问题(QBCP)
      • 星历模型(Ephemeris Model)
      • 作用角变量(Action-Angle Variables)
      • Birkhoff-Gustavson标准型(Birkhoff-Gustavson Normal Form)
      • 中心流形(Central Manifold)
      • 庞加莱截面(Poincaré Section)
    • 任务轨道

      • 远距离逆行轨道(DRO)
      • 近直线晕轨道(NRHO)
      • 地月L1/L2晕轨道(EML1/EML2 Halo Orbit)
      • DRO三星座
    • 导航技术与系统

      • X射线脉冲星导航技术
      • 地球GNSS弱信号导航
      • 星间链路导航
      • 地月混合导航
      • 轨道辨识(Orbit Identification)
      • 地月空间时空基准 (Cislunar Spatiotemporal Reference)
      • 月球网(LunaNet)
      • 月光计划
      • 月球导航星座
      • 天都一号
    • 月球矿物

      • 镁嫦娥石
      • 铈嫦娥石
    • 项目与任务

      • 阿尔忒弥斯计划
      • LuGRE实验
    • 其他技术

      • 纵向耦合振动(POGO)
      • EXOSIMS
      • 太空交通管控(STM)
      • 星伞(Starshade)
      • 核热推进(NTP)
      • 地月空间导航发展展望
    • 机构和组织

      • 安杜里尔工业公司
      • 博思艾伦汉密尔顿公司
      • 通用动力任务系统公司
      • GITAI美国公司
      • 洛克希德·马丁公司
      • 诺斯罗普·格鲁曼公司
      • Quindar公司
      • 雷神导弹与防务公司
      • Sci-Tec公司
      • SpaceX公司
      • True Anomaly公司
      • Turion Space公司

课程学习(Curriculum Learning)

定义

课程学习(Curriculum Learning,CL)是一种机器学习训练策略,其核心思想是让模型从简单样本逐步过渡到复杂样本进行学习,模拟人类教育中"循序渐进"的过程[1]。在强化学习(RL)领域,CL 通过设计一系列难度递增的任务课程(curriculum),帮助 Agent 在复杂的高维连续控制问题中实现稳定收敛。

课程学习在高难度、长horizon的地月空间低推力轨迹优化中尤为重要:直接对最终难度任务进行训练往往因稀疏奖励和混沌动力学而难以收敛,课程学习通过降低初期任务难度使 Agent 逐步建立对问题的理解。

在 A2PPO 中的应用

Ul Haq 等人(2026)将课程学习应用于 A2PPO 框架的地月空间低推力轨迹优化任务[2],通过渐进收紧成功阈值来实现课程设计:

课程结构

定义课程 C={(Ni,Δdi,Δvi)}C = \{(N_i, \Delta d_i, \Delta v_i)\}C={(Ni​,Δdi​,Δvi​)},其中:

  • NiN_iNi​:递增的全局训练步数阈值
  • Δdi,Δvi\Delta d_i, \Delta v_iΔdi​,Δvi​:对应的终端位置和速度容忍度

阈值变化

阶段全局步数 NiN_iNi​位置容忍度 Δd\Delta dΔd速度容忍度 Δv\Delta vΔv
初始05×10−35 \times 10^{-3}5×10−35×10−35 \times 10^{-3}5×10−3
过渡N1N_1N1​2×10−32 \times 10^{-3}2×10−32×10−32 \times 10^{-3}2×10−3
最终N2N_2N2​1×10−31 \times 10^{-3}1×10−31×10−31 \times 10^{-3}1×10−3

Agent 首先在宽松容忍度下学习到达目标轨道附近,然后逐步过渡到精确轨道插入。

课程调度

每个环境步骤中,根据当前全局训练步数 GGG 确定当前课程阶段:

c=max⁡({j:G≥Nj}∪{1})c = \max(\{j: G \geq N_j\} \cup \{1\}) c=max({j:G≥Nj​}∪{1})

然后将环境中的成功阈值设置为对应的 (Δdc,Δvc)(\Delta d_c, \Delta v_c)(Δdc​,Δvc​)。

为什么课程学习有效?

  1. 避免稀疏奖励陷阱:在混沌动力学中,终端精确到达的稀疏奖励在初期探索阶段几乎不可得,宽松阈值使 Agent 能频繁获得正奖励
  2. 稳定梯度估计:初期课程提供的"近似正确"轨迹有助于价值函数准确估计,减少策略更新的高方差
  3. 避免局部最优:从简单任务起步允许 Agent 探索更大的状态空间,后续收紧阈值时已有良好的初始化
  4. 课程迁移:在简单任务中学到的控制策略通常对相似复杂任务有正迁移效果

收敛曲线特征

课程学习训练曲线呈现特征性的"台阶"形态:每次阈值收紧时,终端误差和奖励会出现暂时性下降(因为任务突然变难),随后 Agent 适应并恢复稳定。这一现象在 A2PPO 的 S1-S4 四个场景训练中均有体现。

相关概念

  • A2PPO(注意力增强近端策略优化):课程学习的应用框架
  • 低推力转移 MDP:课程学习所服务的强化学习问题形式化
  • 广义优势估计(GAE):与课程学习配合的优势估计方法

参考文献

  • [1] Bengio Y, Louradour J, Collobert R, et al. Curriculum learning[C]. International Conference on Machine Learning, 2009.
  • [2] Ul Haq I U, Dai H, Du C. Autonomous low-thrust trajectory optimization in cislunar space via attention-augmented reinforcement learning[J]. Aerospace Science and Technology, 2026.
完善页面
最近更新: 2026/4/27 08:30
Contributors: Hermes Agent
Prev
A2PPO(注意力增强近端策略优化)
Next
低推力转移的马尔可夫决策过程(MDP) formulation
地月空间入门指南
地月空间入门指南探索地月空间知识
在 GitHub 查看

导航

  • 首页
  • 关于本站
  • 航天动态
  • 术语表

内容

  • 地月轨道
  • 研究前沿
  • 资源工具
  • 蓝队研究

English

  • Home
  • About
  • Space News
  • Glossary

关注我们

© 2026 地月空间入门指南  |  湘ICP备2026006405号-1
友情链接:智慧学习助手 UStudy航天任务工具箱 ATK
支持我
鼓励和赞赏我感谢您的支持