collaborative inference

分类: 高效推理与部署

定义

协同推理（Collaborative Inference）是指将 DNN 推理任务在多个设备（如边缘设备与云服务器）之间分割执行的计算范式，通过合理选择分割点来平衡延迟、带宽和计算资源。

与 split computing 高度相关，但更强调多设备协作而非仅端-云二分

分割点选择需要考虑：计算量、中间特征大小、网络带宽、隐私约束

early exit 可视为协同推理的特殊形式（本地提前退出 vs 上传继续推理）

异构 GPU 协同（如高端 GPU 处理计算密集层、低端 GPU 处理带宽密集层）也属于此范畴

Kang et al. “Neurosurgeon: Collaborative Intelligence Between the Cloud and Mobile Edge” (ASPLOS 2017)

Li et al. “Edge Intelligence: On-Demand Deep Learning Model Co-Inference with Device-Edge Synergy” (MobiSys 2018)