DDPG

分类: 训练优化

DDPG

定义

基于 Actor-Critic 框架的离线策略（off-policy）深度强化学习算法，专为连续动作空间设计，结合了 DQN 的经验回放与目标网络机制。

数学形式

$\nabla_{\theta^\mu} J \approx \mathbb{E}\left[\nabla_a Q(s,a|\theta^Q)\big|_{a=\mu(s)} \nabla_{\theta^\mu} \mu(s|\theta^\mu)\right]$ Actor 策略 $\mu(s|\theta^\mu)$ 通过最大化 Critic $Q(s,a|\theta^Q)$ 的评估来更新。

核心要点

确定性策略而非随机策略，适合连续控制任务

使用 Replay Buffer 打破时序相关性

使用 Target Network（软更新 $\tau$ ）稳定训练

探索通过在动作上添加 Ornstein-Uhlenbeck 噪声实现

代表工作

KD-DecisionTransformer-Energy — 作为能源管理 baseline，与 Decision Transformer 方法对比

DDPG

DDPG

定义

数学形式

核心要点

代表工作

相关概念