Decision Transformer
分类: 网络架构
Decision Transformer
定义
将强化学习重新表述为条件序列建模问题,用 GPT-style Transformer 直接从离线轨迹数据(return, state, action 三元序列)生成动作,无需显式学习价值函数。
数学形式
给定上下文窗口内的历史序列 ,自回归地预测下一步动作: 其中 为期望 return(condition),通过设定不同 控制 agent 行为质量。
核心要点
不需要 Bellman equation 或 temporal difference 更新,直接监督学习
利用 Transformer 长程依赖建模轨迹中的 credit assignment
Offline RL 方案,只需静态数据集(不需要与环境交互)
可以通过调整目标 return 在推理时控制 policy 质量
代表工作
Chen et al., NeurIPS 2021 — 原始 Decision Transformer 论文
KD-DecisionTransformer-Energy — 使用 KD 将 DT 压缩到边缘设备的应用
相关概念
DDPG — 传统 Actor-Critic RL,被 DT 作为 baseline 对比
知识蒸馏 — 用于压缩 DT 以适配硬件受限场景