collaborative inference

分类: 高效推理与部署

collaborative inference

定义

协同推理(Collaborative Inference)是指将 DNN 推理任务在多个设备(如边缘设备与云服务器)之间分割执行的计算范式,通过合理选择分割点来平衡延迟、带宽和计算资源。

核心要点

split computing 高度相关,但更强调多设备协作而非仅端-云二分

分割点选择需要考虑:计算量、中间特征大小、网络带宽、隐私约束

early exit 可视为协同推理的特殊形式(本地提前退出 vs 上传继续推理)

异构 GPU 协同(如高端 GPU 处理计算密集层、低端 GPU 处理带宽密集层)也属于此范畴

代表工作

Kang et al. “Neurosurgeon: Collaborative Intelligence Between the Cloud and Mobile Edge” (ASPLOS 2017)

Li et al. “Edge Intelligence: On-Demand Deep Learning Model Co-Inference with Device-Edge Synergy” (MobiSys 2018)

相关概念

split computing

early exit

adaptive computation