Decision Transformer

分类: 网络架构

Decision Transformer

定义

将强化学习重新表述为条件序列建模问题,用 GPT-style Transformer 直接从离线轨迹数据(return, state, action 三元序列)生成动作,无需显式学习价值函数。

数学形式

给定上下文窗口内的历史序列 (R^t,st,at,R^t+1,st+1,)(\hat{R}_t, s_t, a_t, \hat{R}_{t+1}, s_{t+1}, \ldots),自回归地预测下一步动作: at=πθ(R^t,st,st1,at1,)a_t = \pi_\theta(\hat{R}_t, s_t, s_{t-1}, a_{t-1}, \ldots) 其中 R^t\hat{R}_t 为期望 return(condition),通过设定不同 R^\hat{R} 控制 agent 行为质量。

核心要点

不需要 Bellman equation 或 temporal difference 更新,直接监督学习

利用 Transformer 长程依赖建模轨迹中的 credit assignment

Offline RL 方案,只需静态数据集(不需要与环境交互)

可以通过调整目标 return R^\hat{R} 在推理时控制 policy 质量

代表工作

Chen et al., NeurIPS 2021 — 原始 Decision Transformer 论文

KD-DecisionTransformer-Energy — 使用 KD 将 DT 压缩到边缘设备的应用

相关概念

DDPG — 传统 Actor-Critic RL,被 DT 作为 baseline 对比

知识蒸馏 — 用于压缩 DT 以适配硬件受限场景