The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks
作者: Jonathan Frankle, Michael Carlin 年份: 2019 会议: ICLR 分类: 剪枝与稀疏化
论文笔记:Lottery-Ticket
一句话总结
- 提出彩票假说(Lottery Ticket Hypothesis):密集网络中存在稀疏子网络(“中奖彩票”),从相同初始化开始训练就能匹配完整网络的精度,挑战了”必须先训大再剪枝”的传统认知。
核心贡献
- 彩票假说:猜想任何随机初始化的密集网络都包含一个子网络(中奖彩票),该子网络在用原始初始化值训练时,能在相同或更少的迭代次数内达到原网络的测试精度
- 迭代剪枝算法:提出 train → prune smallest weights → rewind to original init → repeat 的迭代幅度剪枝流程,逐步找到中奖彩票
- 稀疏率惊人:在 MNIST/CIFAR-10 上的全连接和卷积网络中,找到仅保留 10%-20% 权重的子网络,性能与完整网络匹配甚至更好
- 对模型压缩的启示:为结构化剪枝、稀疏训练、网络架构搜索等方向提供了理论基础,激发了大量后续研究(如 rewinding to epoch k 而非 epoch 0)
相关概念
- 剪枝
- 稀疏网络
- 模型压缩
- 网络初始化
- 过参数化