立体匹配
分类: 视觉任务
立体匹配
定义
给定同一场景的左右双目图像,估计每个像素的视差(disparity)值,进而恢复三维深度信息。
数学形式
其中 和 是同一三维点在左右图像中的水平坐标, 即视差。深度 (:焦距,:基线长度)。
核心要点
代价体(Cost Volume): 将左右特征的相关性或拼接结果组织为 张量( 为最大视差范围)
代价过滤(Cost Filtering): 用 3D 卷积或注意力机制对代价体进行聚合以消除噪声
视差细化(Disparity Refinement): 通过迭代细化(如 ConvGRU)提升视差估计精度
零样本泛化: 在未见过的场景/设备上不需要重新训练即可保持精度,是近期研究热点
代表工作
FoundationStereo: 大规模合成数据 + 混合骨干实现强零样本泛化
Fast-FoundationStereo: 通过蒸馏/NAS/剪枝实现实时零样本立体匹配
RT-IGEV: 轻量实时立体匹配基线