RWKV
分类: 网络架构
RWKV
定义
RWKV 是一种融合了 RNN 和 Transformer 优点的序列模型架构,训练时可并行化(如 Transformer),推理时可逐 token 递推(如 RNN),实现线性复杂度推理
核心要点
推理复杂度 O(n) vs Transformer 的 O(n²)
通过 time-mixing 和 channel-mixing 模块替代标准 multi-head attention
已扩展到 14B+ 参数规模,证明了线性注意力架构的可扩展性
与 Mamba、RetNet 等同属「线性注意力/状态空间模型」赛道
代表工作
RWKV: Reinventing RNNs for the Transformer Era (2023)
相关概念
adaptive computation — RWKV 的线性推理与自适应计算