Decision Transformer

分类: 网络架构

Decision Transformer

定义

将强化学习重新表述为条件序列建模问题，用 GPT-style Transformer 直接从离线轨迹数据（return, state, action 三元序列）生成动作，无需显式学习价值函数。

数学形式

给定上下文窗口内的历史序列 $(\hat{R}_t, s_t, a_t, \hat{R}_{t+1}, s_{t+1}, \ldots)$ ，自回归地预测下一步动作： $a_t = \pi_\theta(\hat{R}_t, s_t, s_{t-1}, a_{t-1}, \ldots)$ 其中 $\hat{R}_t$ 为期望 return（condition），通过设定不同 $\hat{R}$ 控制 agent 行为质量。

核心要点

不需要 Bellman equation 或 temporal difference 更新，直接监督学习

利用 Transformer 长程依赖建模轨迹中的 credit assignment

Offline RL 方案，只需静态数据集（不需要与环境交互）

可以通过调整目标 return $\hat{R}$ 在推理时控制 policy 质量

代表工作

Chen et al., NeurIPS 2021 — 原始 Decision Transformer 论文

KD-DecisionTransformer-Energy — 使用 KD 将 DT 压缩到边缘设备的应用

Decision Transformer

Decision Transformer

定义

数学形式

核心要点

代表工作

相关概念