Soft Actor-Critic

分类: 训练优化

定义

一种 off-policy 的最大熵强化学习算法，通过同时最大化累积奖励和策略熵来实现稳定高效的连续动作空间探索

\pi^* = \arg\max_\pi \mathbb{E}_{s \sim \mathcal{D}} \left[ \mathbb{E}_{a \sim \pi} \left[ r(s,a) + \alpha \mathcal{H}[\pi(\cdot|s)] \right] \right]

$\alpha$ : 温度参数，平衡奖励和熵

$\mathcal{H}[\pi]$ : 策略熵，鼓励探索

Off-policy: 使用经验回放池，样本效率远高于 on-policy 方法（如 PPO）

最大熵框架: 在奖励最大化的同时保持策略的多样性，避免过早收敛

Twin Q-networks: 两个 Q 网络取最小值，缓解 Q 值过估计

自动温度调节: 通过约束优化自动调节 $\alpha$ ，使策略熵接近目标熵 $\bar{H}$

连续动作空间: Actor 输出高斯分布参数，适合连续控制任务

RAMP: 用 SAC 搜索 LLM 混合精度量化策略，6 GPU 小时收敛（PPO 需 48 小时）

Haarnoja et al. (2018): SAC 原始论文