DDPG

分类: 训练优化

DDPG

定义

基于 Actor-Critic 框架的离线策略(off-policy)深度强化学习算法,专为连续动作空间设计,结合了 DQN 的经验回放与目标网络机制。

数学形式

θμJE[aQ(s,aθQ)a=μ(s)θμμ(sθμ)]\nabla_{\theta^\mu} J \approx \mathbb{E}\left[\nabla_a Q(s,a|\theta^Q)\big|_{a=\mu(s)} \nabla_{\theta^\mu} \mu(s|\theta^\mu)\right] Actor 策略 μ(sθμ)\mu(s|\theta^\mu) 通过最大化 Critic Q(s,aθQ)Q(s,a|\theta^Q) 的评估来更新。

核心要点

确定性策略而非随机策略,适合连续控制任务

使用 Replay Buffer 打破时序相关性

使用 Target Network(软更新 τ\tau)稳定训练

探索通过在动作上添加 Ornstein-Uhlenbeck 噪声实现

代表工作

KD-DecisionTransformer-Energy — 作为能源管理 baseline,与 Decision Transformer 方法对比

相关概念

Decision Transformer — 用 offline RL + Transformer 替代 DDPG 的方案