直接配点法(Direct Collocation)
定义
直接配点法(Direct Collocation)是一类将最优控制问题(OCP)直接离散化为非线性规划问题(NLP)进行数值求解的方法[1]。与间接法(indirect method)需要解析推导共状态(costate)的一阶最优性条件不同,直接法通过配点(collocation)方式同时离散化状态和控制变量,将无限维连续最优控制问题转化为有限维的 NLP,是当前航天器轨迹优化领域最广泛使用的数值方法之一。
基本原理
离散化策略
在直接配点法中,转移区间 被划分为 个子区间,在每个子区间的配点处同时满足:
- 状态动力学约束:在配点处强制执行
- 边界条件:初态 和终端约束
- 路径约束:控制约束 、避免障碍约束等
Hermite-Simpson 配点
A2PPO 研究中采用的直接配点实现使用 Hermite-Simpson 配点格式[2]:
- 在每个子区间 上,用三次 Hermite 多项式插值状态
- 在区间中点 处施加动力学缺陷约束(defect constraint)
- 配点处状态精度为三阶,缺陷约束精度为三阶
与 A2PPO 的对比
Ul Haq 等人(2026)将 A2PPO 策略产生的轨迹作为直接配点法的初始猜测,验证了两者在四个场景中的一致性[2]:
| 场景 | A2PPO ToF (天) | 直接配点 ToF (天) | A2PPO 燃料 (kg) | 直接配点燃料 (kg) |
|---|---|---|---|---|
| S1 | 4.95 | 4.99 | 2.08 | 1.28 |
| S2 | 8.38 | 7.26 | 5.00 | 5.29 |
| S3 | 7.60 | 7.63 | 5.10 | 5.11 |
| S4 | 33.6 | 33.12 | 0.97 | 0.97 |
直接配点法由于利用了完整的连续最优性条件,通常能达到更优的燃料效率,但:
- 需要良好的初始猜测(A2PPO 提供了高质量初始解)
- 计算成本高,每次转移需重新求解
- 无法实时在线计算
A2PPO 则可在训练后实时推理,提供近即时的轨迹解。
直接法 vs 间接法
| 特性 | 直接配点法 | 间接法 |
|---|---|---|
| 推导难度 | 较低(无需解析共状态方程) | 较高(需推导 PMP) |
| 初始猜测 | 较鲁棒 | 敏感(对共状态初值) |
| 解的精度 | 较高 | 极高(满足一阶最优性) |
| 收敛性 | 较好 | 依赖初始猜测质量 |
| 计算效率 | 中等(NLP 求解器如 Ipopt) | 较高(但收敛域窄) |
NLP 求解器
直接配点法离散化后的 NLP 通常使用序列二次规划(SQP)或内点法求解器:
- Ipopt:基于内点法的大规模非线性规划求解器
- SNOPT:序列二次规划求解器
- CasADi:符号计算框架,便于构建 NLP 并调用上述求解器
参考文献
- [1] Betts J T. Survey of numerical methods for trajectory optimization[J]. Journal of Guidance, Control, and Dynamics, 1998.
- [2] Ul Haq I U, Dai H, Du C. Autonomous low-thrust trajectory optimization in cislunar space via attention-augmented reinforcement learning[J]. Aerospace Science and Technology, 2026.
- [3] Hargraves C R, Paris S W. Direct trajectory optimization using nonlinear programming and collocation[J]. Journal of Guidance, Control, and Dynamics, 1987.
