CS224N / 学习笔记

#Transformer #self-attention #可视化教程 #encoder-decoder

The Illustrated Transformer

作者: Jay Alammar 年份: 2018 会议: Blog 分类: 网络架构

论文笔记：Illustrated-Transformer

一句话总结

通过精美的可视化图解，将 Transformer 架构的每个组件（自注意力、多头注意力、位置编码、编码器-解码器结构）拆解得清晰易懂，是理解 Transformer 的最佳入门资料之一。

核心贡献

Self-Attention 可视化：用直观的图示展示 Query/Key/Value 的计算流程——每个词如何通过点积注意力”关注”序列中其他词，权重如何分配
Multi-Head Attention 解构：说明多头注意力如何让模型在不同子空间中并行捕获不同类型的依赖关系（如句法关系、语义关系）
位置编码：图解正弦/余弦位置编码如何为 Transformer 注入序列位置信息，弥补自注意力机制的排列不变性
端到端流程：完整展示从输入 embedding 到最终输出概率的全链路数据流，包括残差连接和层归一化

相关概念