Once-for-All

分类: NAS与自动化设计

Once-for-All (OFA)

定义

训练一个超网络(supernet),支持在推理时沿深度、宽度、分辨率和核大小四个维度任意组合子网络,无需重训练即可部署到不同硬件

核心要点

核心训练策略:Progressive Shrinking——先训练最大网络,再渐进式收缩各维度,使子网络继承大网络的知识

与 NAS 的区别:NAS 需要为每个硬件搜索+重训练,OFA 搜索后直接部署(零重训练成本)

搜索空间:101910^{19} 级别的子网络组合

slimmable 的区别:slimmable 只调宽度,OFA 同时调四个维度

对 HyperTinyPW 的启发:OFA 的弹性部署理念被 HyperNetwork 权重生成方案借鉴

代表工作

Cai et al. (2020): Once-for-All 原始论文(MIT Han Lab)

CompOFA: 降低 OFA 训练成本

AttentiveNAS: 将 OFA 思路扩展到注意力模块

相关概念

slimmable

神经架构搜索

progressive training