立体匹配

分类: 视觉任务

定义

给定同一场景的左右双目图像，估计每个像素的视差（disparity）值，进而恢复三维深度信息。

d(x, y) = x_l - x_r

其中 $(x_l, y)$ 和 $(x_r, y)$ 是同一三维点在左右图像中的水平坐标， $d$ 即视差。深度 $Z = fB/d$ （ $f$ ：焦距， $B$ ：基线长度）。

代价体（Cost Volume）: 将左右特征的相关性或拼接结果组织为 $H \times W \times D$ 张量（ $D$ 为最大视差范围）

代价过滤（Cost Filtering）: 用 3D 卷积或注意力机制对代价体进行聚合以消除噪声

视差细化（Disparity Refinement）: 通过迭代细化（如 ConvGRU）提升视差估计精度

零样本泛化: 在未见过的场景/设备上不需要重新训练即可保持精度，是近期研究热点

FoundationStereo: 大规模合成数据 + 混合骨干实现强零样本泛化

Fast-FoundationStereo: 通过蒸馏/NAS/剪枝实现实时零样本立体匹配

RT-IGEV: 轻量实时立体匹配基线