RWKV

分类: 网络架构

RWKV

定义

RWKV 是一种融合了 RNN 和 Transformer 优点的序列模型架构,训练时可并行化(如 Transformer),推理时可逐 token 递推(如 RNN),实现线性复杂度推理

核心要点

推理复杂度 O(n) vs Transformer 的 O(n²)

通过 time-mixing 和 channel-mixing 模块替代标准 multi-head attention

已扩展到 14B+ 参数规模,证明了线性注意力架构的可扩展性

与 Mamba、RetNet 等同属「线性注意力/状态空间模型」赛道

代表工作

RWKV: Reinventing RNNs for the Transformer Era (2023)

相关概念

adaptive computation — RWKV 的线性推理与自适应计算