地月空间入门指南地月空间入门指南
卫星轨道仿真教学平台
地月空间术语词典
资源与工具
蓝军研究
Space News
AI问答
论坛
首页
Gitee
GitHub
  • 简体中文
  • English
卫星轨道仿真教学平台
地月空间术语词典
资源与工具
蓝军研究
Space News
AI问答
论坛
首页
Gitee
GitHub
  • 简体中文
  • English
  • 全站导览

    • 首页(知识总览)
    • 入门 · 地月空间是什么
    • 轨道 · 飞行器运行轨道
    • 前沿 · 科研方向与机构
    • 术语 · 定义与概念
    • 工具 · 数据与代码
    • 动态 · 航天新闻归档
    • 专题 · 蓝军研究
  • 地月空间术语词典(定义与概念检索)

    • 地月空间术语词典
    • 动力学与数学基础

      • 圆形限制性三体问题(CR3BP)
      • 低推力增强圆形限制性三体问题(CR3BP-LT)
      • A2PPO(注意力增强近端策略优化)
      • 课程学习(Curriculum Learning)
      • 低推力转移的马尔可夫决策过程(MDP) formulation
      • 广义优势估计(GAE)
      • 直接配点法(Direct Collocation)
      • 拟双圆四体问题(QBCP)
      • 星历模型(Ephemeris Model)
      • 作用角变量(Action-Angle Variables)
      • Birkhoff-Gustavson标准型(Birkhoff-Gustavson Normal Form)
      • 中心流形(Central Manifold)
      • 庞加莱截面(Poincaré Section)
    • 任务轨道

      • 远距离逆行轨道(DRO)
      • 近直线晕轨道(NRHO)
      • 地月L1/L2晕轨道(EML1/EML2 Halo Orbit)
      • DRO三星座
    • 导航技术与系统

      • X射线脉冲星导航技术
      • 地球GNSS弱信号导航
      • 星间链路导航
      • 地月混合导航
      • 轨道辨识(Orbit Identification)
      • 地月空间时空基准 (Cislunar Spatiotemporal Reference)
      • 月球网(LunaNet)
      • 月光计划
      • 月球导航星座
      • 天都一号
    • 月球矿物

      • 镁嫦娥石
      • 铈嫦娥石
    • 项目与任务

      • 阿尔忒弥斯计划
      • LuGRE实验
    • 其他技术

      • 纵向耦合振动(POGO)
      • EXOSIMS
      • 太空交通管控(STM)
      • 星伞(Starshade)
      • 核热推进(NTP)
      • 地月空间导航发展展望
    • 机构和组织

      • 安杜里尔工业公司
      • 博思艾伦汉密尔顿公司
      • 通用动力任务系统公司
      • GITAI美国公司
      • 洛克希德·马丁公司
      • 诺斯罗普·格鲁曼公司
      • Quindar公司
      • 雷神导弹与防务公司
      • Sci-Tec公司
      • SpaceX公司
      • True Anomaly公司
      • Turion Space公司

低推力转移的马尔可夫决策过程(MDP)formulation

定义

在 A2PPO 等深度强化学习框架中,地月空间低推力轨道转移问题被形式化为有限horizon马尔可夫决策过程(MDP),定义为元组 (S,A,p,R,γ)(S, A, p, R, \gamma)(S,A,p,R,γ),其中 SSS 为状态空间,AAA 为动作空间,p(s′∣s,a)p(s'|s,a)p(s′∣s,a) 为状态转移概率,RRR 为奖励函数,γ∈[0,1]\gamma \in [0,1]γ∈[0,1] 为折扣因子[1]。

状态空间设计

Agent 的状态空间 S⊂R16S \subset \mathbb{R}^{16}S⊂R16,包含 spacecraft 的绝对动力学状态和相对目标轨道的偏差信息:

st=[rt,vt,m~t,Δrt,Δvt,Δdt,Δvt,tel,t]⊤∈R16\mathbf{s}_t = [\mathbf{r}_t, \mathbf{v}_t, \tilde{m}_t, \Delta\mathbf{r}_t, \Delta\mathbf{v}_t, \Delta d_t, \Delta v_t, t_{\text{el},t}]^\top \in \mathbb{R}^{16} st​=[rt​,vt​,m~t​,Δrt​,Δvt​,Δdt​,Δvt​,tel,t​]⊤∈R16

状态分量维度描述
rt=[xt,yt,zt]\mathbf{r}_t = [x_t, y_t, z_t]rt​=[xt​,yt​,zt​]3会合坐标系中位置
vt=[x˙t,y˙t,z˙t]\mathbf{v}_t = [\dot{x}_t, \dot{y}_t, \dot{z}_t]vt​=[x˙t​,y˙​t​,z˙t​]3会合坐标系中速度
m~t\tilde{m}_tm~t​1归一化 spacecraft 质量
Δrt=rt−rref,t\Delta\mathbf{r}_t = \mathbf{r}_t - \mathbf{r}_{\text{ref},t}Δrt​=rt​−rref,t​3位置偏差(相对最近目标轨道点)
Δvt=vt−vref,t\Delta\mathbf{v}_t = \mathbf{v}_t - \mathbf{v}_{\text{ref},t}Δvt​=vt​−vref,t​3速度偏差
Δdt=∣Δrt∣\Delta d_t = |\Delta\mathbf{r}_t|Δdt​=∣Δrt​∣1欧氏位置误差
Δvt=∣Δvt∣\Delta v_t = |\Delta\mathbf{v}_t|Δvt​=∣Δvt​∣1速度误差幅度
tel,tt_{\text{el},t}tel,t​1相对最大episode时长的归一化已用时间

这种绝对状态与相对误差的组合表征同时捕捉了 spacecraft 的当前动力学构型和其相对目标轨道的引导偏差,被证明有助于 A2PPO 的稳定训练。

动作空间设计

Agent 在每个时间步输出连续动作 at=(a1,a2,a3)∈[−1,1]3\mathbf{a}_t = (a_1, a_2, a_3) \in [-1,1]^3at​=(a1​,a2​,a3​)∈[−1,1]3,采用球坐标参数化:

动作分量映射物理含义
a1a_1a1​ν=(a1+1)/2∈[0,1]\nu = (a_1 + 1)/2 \in [0,1]ν=(a1​+1)/2∈[0,1]节流阀(推力大小分数)
a2a_2a2​ϕ=πa2∈[−π,π]\phi = \pi a_2 \in [-\pi, \pi]ϕ=πa2​∈[−π,π]方位角(azimuth)
a3a_3a3​θ=(π/2)a3∈[−π/2,π/2]\theta = (\pi/2)a_3 \in [-\pi/2, \pi/2]θ=(π/2)a3​∈[−π/2,π/2]俯仰角(elevation)

无量纲推力控制向量为:

u=ν⋅u^,u^=(cos⁡θcos⁡ϕ,cos⁡θsin⁡ϕ,sin⁡θ)\mathbf{u} = \nu \cdot \hat{\mathbf{u}}, \quad \hat{\mathbf{u}} = (\cos\theta\cos\phi, \cos\theta\sin\phi, \sin\theta) u=ν⋅u^,u^=(cosθcosϕ,cosθsinϕ,sinθ)

奖励函数设计

奖励函数结合势能塑形(potential-based shaping)、惩罚项和安全约束:

rt=ΔΦ(st,st−1)⏟势能塑形−ct−cfΔmt⏟时间和燃料代价+rsafe,t⏟安全约束+Ωt⏟终端奖励r_t = \underbrace{\Delta\Phi(\mathbf{s}_t, \mathbf{s}_{t-1})}_{\text{势能塑形}} - \underbrace{c_t - c_f \Delta m_t}_{\text{时间和燃料代价}} + \underbrace{r_{\text{safe},t}}_{\text{安全约束}} + \underbrace{\Omega_t}_{\text{终端奖励}} rt​=势能塑形ΔΦ(st​,st−1​)​​−时间和燃料代价ct​−cf​Δmt​​​+安全约束rsafe,t​​​+终端奖励Ωt​​​

势能函数

Φ(s)=−w1posΔd−w1velΔv+w2pose−w3posΔd+w2vele−w3velΔv\Phi(\mathbf{s}) = -w_1^{\text{pos}}\Delta d - w_1^{\text{vel}}\Delta v + w_2^{\text{pos}} e^{-w_3^{\text{pos}}\Delta d} + w_2^{\text{vel}} e^{-w_3^{\text{vel}}\Delta v} Φ(s)=−w1pos​Δd−w1vel​Δv+w2pos​e−w3pos​Δd+w2vel​e−w3vel​Δv

指数项在 Δd,Δv→0\Delta d, \Delta v \to 0Δd,Δv→0 时趋近于 w2pos,w2velw_2^{\text{pos}}, w_2^{\text{vel}}w2pos​,w2vel​,线性项提供持续的方向引导。

终端奖励

条件奖励值
成功插入目标轨道+1000+1000+1000
月球碰撞/燃料耗尽−1000-1000−1000
超时000

月球安全约束

rsafe,t={−cs(1−∥rt−rM∥βRM)2if ∥rt−rM∥<βRM0otherwiser_{\text{safe},t} = \begin{cases} -c_s\left(1 - \frac{\|\mathbf{r}_t - \mathbf{r}_M\|}{\beta R_M}\right)^2 & \text{if } \|\mathbf{r}_t - \mathbf{r}_M\| < \beta R_M \\ 0 & \text{otherwise} \end{cases} rsafe,t​=⎩⎨⎧​−cs​(1−βRM​∥rt​−rM​∥​)20​if ∥rt​−rM​∥<βRM​otherwise​

其中 β=3\beta = 3β=3 为安全缓冲区乘数,RM=1737.4R_M = 1737.4RM​=1737.4 km 为月球半径。

Episode 终止条件

终止类型条件结果
成功Δd<Δdthr\Delta d < \Delta d_{\text{thr}}Δd<Δdthr​ 且 Δv<Δvthr\Delta v < \Delta v_{\text{thr}}Δv<Δvthr​+1000
月球碰撞rM,t≤RMr_{M,t} \leq R_MrM,t​≤RM​-1000
燃料耗尽mt≤mmin⁡m_t \leq m_{\min}mt​≤mmin​-1000
超时达到最大 episode 时长0

转移概率

CR3BP-LT 环境的状态转移由以下常微分方程描述:

x˙=f(x,u),x=[r,v,m~]⊤\dot{\mathbf{x}} = f(\mathbf{x}, \mathbf{u}), \quad \mathbf{x} = [\mathbf{r}, \mathbf{v}, \tilde{m}]^\top x˙=f(x,u),x=[r,v,m~]⊤

数值积分采用自适应 Runge-Kutta 4(5) 积分器(相对容差 10−910^{-9}10−9,绝对容差 10−1210^{-12}10−12)。

参考文献

  • [1] Ul Haq I U, Dai H, Du C. Autonomous low-thrust trajectory optimization in cislunar space via attention-augmented reinforcement learning[J]. Aerospace Science and Technology, 2026.
完善页面
最近更新: 2026/4/27 08:30
Contributors: Hermes Agent
Prev
课程学习(Curriculum Learning)
Next
广义优势估计(GAE)
地月空间入门指南
地月空间入门指南探索地月空间知识
在 GitHub 查看

导航

  • 首页
  • 关于本站
  • 航天动态
  • 术语表

内容

  • 地月轨道
  • 研究前沿
  • 资源工具
  • 蓝队研究

English

  • Home
  • About
  • Space News
  • Glossary

关注我们

© 2026 地月空间入门指南  |  湘ICP备2026006405号-1
友情链接:智慧学习助手 UStudy航天任务工具箱 ATK
支持我
鼓励和赞赏我感谢您的支持