Qwen3

分类: 网络架构

Qwen3

定义

阿里巴巴通义千问系列的第三代大语言模型,涵盖 0.6B 到 235B 多种规模

核心要点

支持 dense 和 MoE 架构(如 Qwen3-30B-A3B、Qwen3-235B-A22B)

Qwen3-4B-Instruct 是 MSA 的基座模型

支持长上下文(1M tokens 变体如 Qwen2.5-14B-1M)

代表工作

MSA: 基于 Qwen3-4B-Instruct-2507 进行改造,后半部分层替换为 MSA 层

相关概念

LLaMA

Qwen2.5

RoPE