FLOPs

分类: 数据集与评估

FLOPs

定义

模型执行一次前向传播所需的浮点运算总次数,衡量计算复杂度的标准指标

核心要点

通常指乘加运算(MACs)的两倍,注意不同论文可能定义不同

Transformer 的 FLOPs 主要来自:Self-Attention O(n2d)O(n^2 d) + FFN O(nmd)O(nmd)

在 LVLM 中,视觉 token 剪枝可近似二次方降低 FLOPs(因为注意力的二次复杂度)

与实际延迟不完全正相关(受内存带宽、并行度等影响)

代表工作

ResPrune: 88.9% token 剪枝率 → 89.9% FLOPs 降低(LLaVA-NeXT-7B)

相关概念

KV-Cache

Visual Token Pruning