强化学习增强粒子群（Reinforced Learning Enhanced Particle Swarm Optimization, RLEPSO）

本文作者：天疆说
参编单位：哈尔滨工业大学航天学院、微小型航天器快速设计与智能集群全国重点实验室
参考文献：关宇同等. 面向航天器远距离协同交会的超参数自主调优-同伦方法[J]. 航天器环境工程, 2026.

定义

强化学习增强粒子群（Reinforced Learning Enhanced Particle Swarm Optimization, RLEPSO）是将深度确定性策略梯度（DDPG）与混合聚类粒子群优化（HCPSO）相结合的混合优化算法。RLEPSO 利用 DDPG 的 Actor 网络根据粒子搜索状态自主动态调整 HCPSO 的超参数，实现了算法参数的自主调优，显著提高了优化算法的可搜索性和收敛速度。

核心原理

算法架构

RLEPSO 在 HCPSO 基础上嵌入 DDPG 框架：

初始化：设置 HCPSO 初始参数，建立 DDPG 的 Actor-Critic 网络
状态感知：根据当前迭代状态计算状态量（停滞时刻、持续时长、迭代进度、粒子分布离散度、粒子分布方向）
动作输出：Actor 网络输出超参数调整动作
参数更新：将动作解码为 HCPSO 的惯性权值、加速因子等参数
经验回放：存储经验样本用于训练 Critic 网络
迭代优化：重复步骤 2-5 直到收敛

状态设计

RLEPSO 使用的状态量包括：

状态量	定义	物理意义
$T_{stop}$	停滞开始时刻	检测算法是否停滞
$T_{dur}$	停滞持续时长	评估停滞严重程度
$T_{run}$	迭代进度	当前迭代与最大迭代的比值
$D_s$	粒子分布离散度	表征粒子聚集程度
$D_r$	粒子分布方向	表征粒子分布的方向特性

动作与奖励

动作：Actor 网络输出 16 维动作向量，解码为 8 个 HCPSO 超参数（ $\omega_1, c_{11}, c_{12}, \mu_q, \omega_2, c_{21}, c_{22}, p_s$ ）

奖励函数：

r = \tanh\left((f_g - f_c) \cdot T_{run}\right)

其中 $f_g$ 为全局最优适应度， $f_c$ 为当前代最优适应度。

在航天器协同交会中的应用

赵海涵等（2026）将 RLEPSO 与同伦法结合，用于求解 J₂ 摄动下远距离航天器协同交会的燃料最优问题：

能量最优求解：RLEPSO 快速获得高质量初始协态
同伦过渡：从能量最优平滑过渡到燃料最优
结果：相较于 PSO 和 HCPSO，RLEPSO 获得更高质量的初始协态，收敛速度更快

仿真结果

参数	RLEPSO-同伦	同伦-SQP耦合
燃料消耗	205.40 kg	210.36 kg
交会时间	208.89 TU	225.44 TU
终端交会距离	0.7078 km	9.3624 km

参考文献

关宇同, 高长生, 胡玉东, 赵海涵. 面向航天器远距离协同交会的超参数自主调优-同伦方法[J]. 航天器环境工程, 2026.
Lillicrap T P, et al. Continuous control with deep reinforcement learning[J]. arXiv:1509.02971, 2015.