在 A2PPO 等深度强化学习框架中,地月空间低推力轨道转移问题被形式化为有限horizon马尔可夫决策过程(MDP),定义为元组 ( S , A , p , R , γ ) (S, A, p, R, \gamma) ( S , A , p , R , γ ) ,其中 S S S 为状态空间,A A A 为动作空间,p ( s ′ ∣ s , a ) p(s'|s,a) p ( s ′ ∣ s , a ) 为状态转移概率,R R R 为奖励函数,γ ∈ [ 0 , 1 ] \gamma \in [0,1] γ ∈ [ 0 , 1 ] 为折扣因子[1] 。
Agent 的状态空间 S ⊂ R 16 S \subset \mathbb{R}^{16} S ⊂ R 16 ,包含 spacecraft 的绝对动力学状态和相对目标轨道的偏差信息:
s t = [ r t , v t , m ~ t , Δ r t , Δ v t , Δ d t , Δ v t , t el , t ] ⊤ ∈ R 16 \mathbf{s}_t = [\mathbf{r}_t, \mathbf{v}_t, \tilde{m}_t, \Delta\mathbf{r}_t, \Delta\mathbf{v}_t, \Delta d_t, \Delta v_t, t_{\text{el},t}]^\top \in \mathbb{R}^{16} s t = [ r t , v t , m ~ t , Δ r t , Δ v t , Δ d t , Δ v t , t el , t ] ⊤ ∈ R 16
状态分量 维度 描述 r t = [ x t , y t , z t ] \mathbf{r}_t = [x_t, y_t, z_t] r t = [ x t , y t , z t ] 3 会合坐标系中位置 v t = [ x ˙ t , y ˙ t , z ˙ t ] \mathbf{v}_t = [\dot{x}_t, \dot{y}_t, \dot{z}_t] v t = [ x ˙ t , y ˙ t , z ˙ t ] 3 会合坐标系中速度 m ~ t \tilde{m}_t m ~ t 1 归一化 spacecraft 质量 Δ r t = r t − r ref , t \Delta\mathbf{r}_t = \mathbf{r}_t - \mathbf{r}_{\text{ref},t} Δ r t = r t − r ref , t 3 位置偏差(相对最近目标轨道点) Δ v t = v t − v ref , t \Delta\mathbf{v}_t = \mathbf{v}_t - \mathbf{v}_{\text{ref},t} Δ v t = v t − v ref , t 3 速度偏差 Δ d t = ∣ Δ r t ∣ \Delta d_t = |\Delta\mathbf{r}_t| Δ d t = ∣Δ r t ∣ 1 欧氏位置误差 Δ v t = ∣ Δ v t ∣ \Delta v_t = |\Delta\mathbf{v}_t| Δ v t = ∣Δ v t ∣ 1 速度误差幅度 t el , t t_{\text{el},t} t el , t 1 相对最大episode时长的归一化已用时间
这种绝对状态与相对误差的组合表征同时捕捉了 spacecraft 的当前动力学构型和其相对目标轨道的引导偏差,被证明有助于 A2PPO 的稳定训练。
Agent 在每个时间步输出连续动作 a t = ( a 1 , a 2 , a 3 ) ∈ [ − 1 , 1 ] 3 \mathbf{a}_t = (a_1, a_2, a_3) \in [-1,1]^3 a t = ( a 1 , a 2 , a 3 ) ∈ [ − 1 , 1 ] 3 ,采用球坐标参数化:
动作分量 映射 物理含义 a 1 a_1 a 1 ν = ( a 1 + 1 ) / 2 ∈ [ 0 , 1 ] \nu = (a_1 + 1)/2 \in [0,1] ν = ( a 1 + 1 ) /2 ∈ [ 0 , 1 ] 节流阀(推力大小分数) a 2 a_2 a 2 ϕ = π a 2 ∈ [ − π , π ] \phi = \pi a_2 \in [-\pi, \pi] ϕ = π a 2 ∈ [ − π , π ] 方位角(azimuth) a 3 a_3 a 3 θ = ( π / 2 ) a 3 ∈ [ − π / 2 , π / 2 ] \theta = (\pi/2)a_3 \in [-\pi/2, \pi/2] θ = ( π /2 ) a 3 ∈ [ − π /2 , π /2 ] 俯仰角(elevation)
无量纲推力控制向量为:
u = ν ⋅ u ^ , u ^ = ( cos θ cos ϕ , cos θ sin ϕ , sin θ ) \mathbf{u} = \nu \cdot \hat{\mathbf{u}}, \quad \hat{\mathbf{u}} = (\cos\theta\cos\phi, \cos\theta\sin\phi, \sin\theta) u = ν ⋅ u ^ , u ^ = ( cos θ cos ϕ , cos θ sin ϕ , sin θ )
奖励函数结合势能塑形(potential-based shaping)、惩罚项和安全约束:
r t = Δ Φ ( s t , s t − 1 ) ⏟ 势能塑形 − c t − c f Δ m t ⏟ 时间和燃料代价 + r safe , t ⏟ 安全约束 + Ω t ⏟ 终端奖励 r_t = \underbrace{\Delta\Phi(\mathbf{s}_t, \mathbf{s}_{t-1})}_{\text{势能塑形}} - \underbrace{c_t - c_f \Delta m_t}_{\text{时间和燃料代价}} + \underbrace{r_{\text{safe},t}}_{\text{安全约束}} + \underbrace{\Omega_t}_{\text{终端奖励}} r t = 势能塑形 ΔΦ ( s t , s t − 1 ) − 时间和燃料代价 c t − c f Δ m t + 安全约束 r safe , t + 终端奖励 Ω t
Φ ( s ) = − w 1 pos Δ d − w 1 vel Δ v + w 2 pos e − w 3 pos Δ d + w 2 vel e − w 3 vel Δ v \Phi(\mathbf{s}) = -w_1^{\text{pos}}\Delta d - w_1^{\text{vel}}\Delta v + w_2^{\text{pos}} e^{-w_3^{\text{pos}}\Delta d} + w_2^{\text{vel}} e^{-w_3^{\text{vel}}\Delta v} Φ ( s ) = − w 1 pos Δ d − w 1 vel Δ v + w 2 pos e − w 3 pos Δ d + w 2 vel e − w 3 vel Δ v
指数项在 Δ d , Δ v → 0 \Delta d, \Delta v \to 0 Δ d , Δ v → 0 时趋近于 w 2 pos , w 2 vel w_2^{\text{pos}}, w_2^{\text{vel}} w 2 pos , w 2 vel ,线性项提供持续的方向引导。
条件 奖励值 成功插入目标轨道 + 1000 +1000 + 1000 月球碰撞/燃料耗尽 − 1000 -1000 − 1000 超时 0 0 0
r safe , t = { − c s ( 1 − ∥ r t − r M ∥ β R M ) 2 if ∥ r t − r M ∥ < β R M 0 otherwise r_{\text{safe},t} = \begin{cases} -c_s\left(1 - \frac{\|\mathbf{r}_t - \mathbf{r}_M\|}{\beta R_M}\right)^2 & \text{if } \|\mathbf{r}_t - \mathbf{r}_M\| < \beta R_M \\ 0 & \text{otherwise} \end{cases} r safe , t = ⎩ ⎨ ⎧ − c s ( 1 − β R M ∥ r t − r M ∥ ) 2 0 if ∥ r t − r M ∥ < β R M otherwise
其中 β = 3 \beta = 3 β = 3 为安全缓冲区乘数,R M = 1737.4 R_M = 1737.4 R M = 1737.4 km 为月球半径。
终止类型 条件 结果 成功 Δ d < Δ d thr \Delta d < \Delta d_{\text{thr}} Δ d < Δ d thr 且 Δ v < Δ v thr \Delta v < \Delta v_{\text{thr}} Δ v < Δ v thr +1000 月球碰撞 r M , t ≤ R M r_{M,t} \leq R_M r M , t ≤ R M -1000 燃料耗尽 m t ≤ m min m_t \leq m_{\min} m t ≤ m m i n -1000 超时 达到最大 episode 时长 0
CR3BP-LT 环境的状态转移由以下常微分方程描述:
x ˙ = f ( x , u ) , x = [ r , v , m ~ ] ⊤ \dot{\mathbf{x}} = f(\mathbf{x}, \mathbf{u}), \quad \mathbf{x} = [\mathbf{r}, \mathbf{v}, \tilde{m}]^\top x ˙ = f ( x , u ) , x = [ r , v , m ~ ] ⊤
数值积分采用自适应 Runge-Kutta 4(5) 积分器(相对容差 10 − 9 10^{-9} 1 0 − 9 ,绝对容差 10 − 12 10^{-12} 1 0 − 12 )。
[1] Ul Haq I U, Dai H, Du C. Autonomous low-thrust trajectory optimization in cislunar space via attention-augmented reinforcement learning[J]. Aerospace Science and Technology, 2026.