The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks

作者: Jonathan Frankle, Michael Carlin 年份: 2019 会议: ICLR 分类: 剪枝与稀疏化

论文笔记:Lottery-Ticket

一句话总结

  • 提出彩票假说(Lottery Ticket Hypothesis):密集网络中存在稀疏子网络(“中奖彩票”),从相同初始化开始训练就能匹配完整网络的精度,挑战了”必须先训大再剪枝”的传统认知。

核心贡献

  • 彩票假说:猜想任何随机初始化的密集网络都包含一个子网络(中奖彩票),该子网络在用原始初始化值训练时,能在相同或更少的迭代次数内达到原网络的测试精度
  • 迭代剪枝算法:提出 train → prune smallest weights → rewind to original init → repeat 的迭代幅度剪枝流程,逐步找到中奖彩票
  • 稀疏率惊人:在 MNIST/CIFAR-10 上的全连接和卷积网络中,找到仅保留 10%-20% 权重的子网络,性能与完整网络匹配甚至更好
  • 对模型压缩的启示:为结构化剪枝、稀疏训练、网络架构搜索等方向提供了理论基础,激发了大量后续研究(如 rewinding to epoch k 而非 epoch 0)

相关概念

  • 剪枝
  • 稀疏网络
  • 模型压缩
  • 网络初始化
  • 过参数化