立体匹配

分类: 视觉任务

立体匹配

定义

给定同一场景的左右双目图像,估计每个像素的视差(disparity)值,进而恢复三维深度信息。

数学形式

d(x,y)=xlxrd(x, y) = x_l - x_r

其中 (xl,y)(x_l, y)(xr,y)(x_r, y) 是同一三维点在左右图像中的水平坐标,dd 即视差。深度 Z=fB/dZ = fB/dff:焦距,BB:基线长度)。

核心要点

代价体(Cost Volume): 将左右特征的相关性或拼接结果组织为 H×W×DH \times W \times D 张量(DD 为最大视差范围)

代价过滤(Cost Filtering): 用 3D 卷积或注意力机制对代价体进行聚合以消除噪声

视差细化(Disparity Refinement): 通过迭代细化(如 ConvGRU)提升视差估计精度

零样本泛化: 在未见过的场景/设备上不需要重新训练即可保持精度,是近期研究热点

代表工作

FoundationStereo: 大规模合成数据 + 混合骨干实现强零样本泛化

Fast-FoundationStereo: 通过蒸馏/NAS/剪枝实现实时零样本立体匹配

RT-IGEV: 轻量实时立体匹配基线

相关概念

知识蒸馏

神经架构搜索

结构化剪枝

ConvGRU