Qwen3 分类: 网络架构Qwen3 定义 阿里巴巴通义千问系列的第三代大语言模型,涵盖 0.6B 到 235B 多种规模 核心要点 支持 dense 和 MoE 架构(如 Qwen3-30B-A3B、Qwen3-235B-A22B) Qwen3-4B-Instruct 是 MSA 的基座模型 支持长上下文(1M tokens 变体如 Qwen2.5-14B-1M) 代表工作 MSA: 基于 Qwen3-4B-Instruct-2507 进行改造,后半部分层替换为 MSA 层 相关概念 LLaMA Qwen2.5 RoPE