本文作者:天疆说
本站地址:https://cislunarspace.cn
深度强化学习(Deep Reinforcement Learning, DRL)是结合深度学习的感知能力与强化学习的决策能力,通过与环境交互学习最优策略的机器学习方法。在平流层飞艇控制中,DRL 能够处理高维状态空间和复杂非线性动力学。
强化学习问题建模为 MDP:(S,A,P,R,γ)
| 要素 | 描述 |
|---|
| S | 状态空间(飞艇位置、速度、高度等) |
| A | 动作空间(推力方向、推进量等) |
| P | 状态转移概率 $P(s' |
| R | 奖励函数 R(s,a,s′) |
| γ | 折扣因子 |
θmaxJ(θ)=Eπθ[t=0∑TγtR(st,at,st+1)]
| 算法 | 特点 | 适用场景 |
|---|
| REINFORCE | 蒙特卡洛估计 | 离散动作 |
| PPO | 信赖域约束,稳定训练 | 连续动作 |
| SAC | 最大熵,探索充分 | 连续动作 |
| 算法 | 特点 | 适用场景 |
|---|
| DQN | 经验回放,目标网络 | 离散低维 |
| TD3 | 双 critic,减少过估计 | 连续动作 |
| DDPG | Actor-Critic 框架 | 连续动作 |
┌─────────────────────────────────────────────┐
│ Actor (策略网络) │
│ μ(s|θμ) → a │
└─────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────┐
│ Critic (价值网络) │
│ Q(s,a|θQ) → Q值 │
└─────────────────────────────────────────────┘
| 状态变量 | 维度 | 说明 |
|---|
| 位置 (x,y,z) | 3 | 地理坐标 |
| 速度 (vx,vy,vz) | 3 | 地速 |
| 风场估计 | 3 | 感知风扰 |
| 高度 | 1 | 绝对高度 |
| 氦气状态 | 2 | 体积、温度 |
| 动作 | 范围 | 说明 |
|---|
| 推力方向 | [0,2π) | 水平推进方向 |
| 推力大小 | [0,Fmax] | 推进功率 |
| 高度调节 | ±Δh | 高度变更 |
R=Rposition+Raltitude+Renergy+Rsmoothness
| 奖励项 | 作用 |
|---|
| Rposition | 惩罚偏离目标区域 |
| Raltitude | 惩罚高度偏差 |
| Renergy | 惩罚高能耗动作 |
| Rsmoothness | 惩罚动作剧变 |
- 多智能体 DRL:多飞艇协同区域覆盖
- 安全强化学习:约束满足保证
- 迁移学习:仿真到实物的策略迁移
- 鲁棒 DRL:对抗风场不确定性
- Sutton R S, Barto A G. Reinforcement Learning: An Introduction[M]. MIT Press, 2018.
- Mnih V, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015.
- Zhang Y, et al. Deep Reinforcement Learning for Stratospheric Airship Station-keeping[J]. AIAA Journal, 2024.