#Self-Attention 共 3 个条目 拓展阅读 (3) Scaling Laws 与 Chinchilla 最优 Self-Attention 完整推导 Transformer 计算复杂度分析