DDPG
分类: 训练优化
DDPG
定义
基于 Actor-Critic 框架的离线策略(off-policy)深度强化学习算法,专为连续动作空间设计,结合了 DQN 的经验回放与目标网络机制。
数学形式
Actor 策略 通过最大化 Critic 的评估来更新。
核心要点
确定性策略而非随机策略,适合连续控制任务
使用 Replay Buffer 打破时序相关性
使用 Target Network(软更新 )稳定训练
探索通过在动作上添加 Ornstein-Uhlenbeck 噪声实现
代表工作
KD-DecisionTransformer-Energy — 作为能源管理 baseline,与 Decision Transformer 方法对比
相关概念
Decision Transformer — 用 offline RL + Transformer 替代 DDPG 的方案