深度强化学习（Deep Reinforcement Learning）

本文作者：天疆说
本站地址：https://cislunarspace.cn

定义

深度强化学习（Deep Reinforcement Learning, DRL）是结合深度学习的感知能力与强化学习的决策能力，通过与环境交互学习最优策略的机器学习方法。在平流层飞艇控制中，DRL 能够处理高维状态空间和复杂非线性动力学。

基本框架

马尔可夫决策过程（MDP）

强化学习问题建模为 MDP： $(S, A, P, R, \gamma)$

要素	描述
$S$	状态空间（飞艇位置、速度、高度等）
$A$	动作空间（推力方向、推进量等）
$P$	状态转移概率 $P(s'
$R$	奖励函数 $R(s,a,s')$
$\gamma$	折扣因子

优化目标

\max_{\theta} J(\theta) = \mathbb{E}_{\pi_\theta}\left[\sum_{t=0}^{T} \gamma^t R(s_t, a_t, s_{t+1})\right]

主流算法

策略梯度方法

算法	特点	适用场景
REINFORCE	蒙特卡洛估计	离散动作
PPO	信赖域约束，稳定训练	连续动作
SAC	最大熵，探索充分	连续动作

值函数方法

算法	特点	适用场景
DQN	经验回放，目标网络	离散低维
TD3	双 critic，减少过估计	连续动作
DDPG	Actor-Critic 框架	连续动作

DDPG 算法结构

┌─────────────────────────────────────────────┐
│              Actor (策略网络)                │
│  μ(s|θμ) → a                                │
└─────────────────────────────────────────────┘
           ↓                                   
┌─────────────────────────────────────────────┐
│              Critic (价值网络)               │
│  Q(s,a|θQ) → Q值                             │
└─────────────────────────────────────────────┘

在平流层飞艇中的应用

状态空间设计

状态变量	维度	说明
位置 $(x,y,z)$	3	地理坐标
速度 $(v_x,v_y,v_z)$	3	地速
风场估计	3	感知风扰
高度	1	绝对高度
氦气状态	2	体积、温度

动作空间设计

动作	范围	说明
推力方向	$[0, 2\pi)$	水平推进方向
推力大小	$[0, F_{max}]$	推进功率
高度调节	$\pm \Delta h$	高度变更

奖励函数设计

R = R_{position} + R_{altitude} + R_{energy} + R_{smoothness}

奖励项	作用
$R_{position}$	惩罚偏离目标区域
$R_{altitude}$	惩罚高度偏差
$R_{energy}$	惩罚高能耗动作
$R_{smoothness}$	惩罚动作剧变

研究前沿

多智能体 DRL：多飞艇协同区域覆盖
安全强化学习：约束满足保证
迁移学习：仿真到实物的策略迁移
鲁棒 DRL：对抗风场不确定性

参考文献

Sutton R S, Barto A G. Reinforcement Learning: An Introduction[M]. MIT Press, 2018.
Mnih V, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015.
Zhang Y, et al. Deep Reinforcement Learning for Stratospheric Airship Station-keeping[J]. AIAA Journal, 2024.