Qwen2.5

分类: 网络架构

Qwen2.5

定义

阿里巴巴通义千问团队发布的开源 LLM 系列,包含 0.5B 到 72B 多种规模,支持多语言和长上下文

核心要点

基于 Transformer decoder 架构,支持 128K 上下文窗口

提供基础模型和指令微调版本

在多语言 benchmark 上表现突出

常被用作 LLM 压缩研究的跨架构泛化验证模型

代表工作

DieT: 用 Qwen2.5-7B 验证跨架构泛化性

相关概念

Gemma

LLaMA