edge AI

分类: 高效推理与部署

Edge AI

定义

在边缘设备(手机、IoT、嵌入式系统)上直接运行 AI 模型的技术范式,无需依赖云端服务器

核心要点

核心约束:内存有限、算力有限、功耗受限、延迟敏感

关键技术:模型压缩(量化/剪枝/蒸馏)、高效推理(算子优化/硬件适配)

小型语言模型(SLM)是 edge AI 的重点方向,如 Llama-3.2-1B、Gemma-3-270M

分类头在小模型中占比极高(Gemma-3-270M 的分类头占 62.7% 参数),是边端优化的关键

代表工作

FlashHead: 针对边端推理优化分类头,INT4 加速 1.75×

split computing: 边端-云端协同推理

相关概念

split computing

classification head

混合精度