Qwen2.5 分类: 网络架构Qwen2.5 定义 阿里巴巴通义千问团队发布的开源 LLM 系列,包含 0.5B 到 72B 多种规模,支持多语言和长上下文 核心要点 基于 Transformer decoder 架构,支持 128K 上下文窗口 提供基础模型和指令微调版本 在多语言 benchmark 上表现突出 常被用作 LLM 压缩研究的跨架构泛化验证模型 代表工作 DieT: 用 Qwen2.5-7B 验证跨架构泛化性 相关概念 Gemma LLaMA