CVPR‘26 Highlight开源 | VGGT并非全能?Dark3R:低光照条件下鲁棒的特征匹配和相机姿态估计!

张开发
2026/4/30 0:42:50 15 分钟阅读

分享文章

CVPR‘26 Highlight开源 | VGGT并非全能?Dark3R:低光照条件下鲁棒的特征匹配和相机姿态估计!
点击下方卡片关注「3D视觉工坊」公众号选择星标干货第一时间送达来源3D视觉工坊「3D视觉从入门到精通」知识星球(点开有惊喜) 星球内有20多门3D视觉系统课程、3DGS独家系列视频教程、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研欢迎加入论文信息标题Dark3R: Learning Structure from Motion in the Dark作者Andrew Y Guo, Anagh Malik, SaiKiran Tedla, Yutong Dai, Yiqian Qin, Zach Salehe, Benjamin Attal, Sotiris Nousias, Kyros Kutulakos, David B. Lindell机构University of Toronto、Vector Institute、York University、Sony Corporation of America、Harvard University、Purdue University原文链接https://arxiv.org/abs/2603.05330代码链接https://andrewguo.com/pub/dark3r导读我们推出了Dark3R这是一个用于在低信噪比环境下从运动数据中重建结构的框架可直接处理原始图像。分贝——这是传统特征提取和学习方法失效的领域。我们的核心思路是通过“师徒蒸馏”过程将大规模3D基础模型适配到极低光照条件下从而实现低光环境下的稳定特征匹配和相机姿态估计。Dark3R无需3D监督数据仅通过含噪声与无噪声的原始图像对进行训练这些图像可以对真实场景直接拍摄获得或利用简单的泊松-高斯噪声模型对曝光良好的原始图像进行合成处理。为测试我们的方法我们构建了一个新的、包含不同曝光级别的数据集42,000张带有真实3D标注的多视角原始图像实验结果表明Dark3R在低信噪比环境下实现了最先进的结构与运动融合技术。此外通过利用Dark3R预测的姿态以及粗细结合的辐射场优化算法该技术在黑暗环境中实现了最先进的新型视图合成技术。效果展示Dark3R能够进行结构自运动分析以及从原始图像中合成新颖视图这些图像是在低光照条件下拍摄的。(a)针对此场景我们从不同视角拍摄了500张图像并展示其中一部分及其信噪比。时间传感器噪声导致帧与帧之间出现明显的色彩变化这在下排图像中尤为明显从而进一步增加了问题的复杂性。(b)我们将这些图像应用于Dark3R以恢复相机姿态和三维场景几何结构(我们展示的是预测姿态的部分结果)。(c)最后我们引入了一种稳健的视图合成技术该技术利用Dark3R预测的姿态以及一种粗至细的优化策略来重构原本完全被噪声掩盖的精细外观细节。现有的手工制作和数据驱动的特征匹配流程如SuperGlue和 MASt3R在光线充足的环境下性能表现稳定可靠(第一行)。但当图像信号-噪声比(SNR)降至低于-3dB(第二行)时性能表现显著恶化。相比之下Dark3R在两种成像模式下均稳健地识别出了对应点。绿色和红色线条分别表示对应点其对称极线距离(SED)分别低于或高于两个像素。这是针对一组随机选取的20个疑似匹配点进行的分析。所有比赛中的平均SED值也一并公布。我们利用经过校准的相机内在参数以及从MASt3R在高信噪比图像对上的对应关系中预测出的基本矩阵来计算SED。我们比较了Dark3R恢复的点云数据和相机姿态与MASt3R-SfM估算出的数据之间的差异。Dark3R能够生成更为精准的几何结构和相机轨迹这些轨迹与通过运行COLMAP获得的参考解决方案更为吻合。引言被动式三维重建技术例如立体视觉和运动恢复结构SfM已经发展了几十年并且是现代从捕获或生成图像中重建外观和几何形状的框架的基础。然而尽管这些被动式三维重建方法已经成熟并取得了广泛成功它们在弱光条件下仍然会失效因为在弱光条件下噪声会主导捕获的信号。我们试图通过实现在极端弱光环境——或者说图像信噪比远低于0 dB的情况下——鲁棒的SfM来解决这个问题。传统的SfM方法通过一个多阶段流程联合恢复相机姿态和场景几何该流程包括检测和匹配图像特征、估计对极几何、执行三角化以及使用光束法平差优化解。近年来这个流程得到了显著改进——例如基于学习的特征检测和匹配现在优于传统的手工设计技术而可微分的RANSAC使得在存在外点的情况下能够更鲁棒地估计相机姿态。然而尽管取得了这些进展SfM流程在弱光条件下仍然会崩溃因为噪声导致现有的特征检测和匹配技术失效。更多近期的方法试图用基于视觉Transformer和大规模训练数据集的基础模型或端到端优化的神经体积场景表示来取代SfM流程。尽管这些方法通常能获得比传统SfM流程更高的重建质量但它们难以泛化到弱光条件因为低信噪比图像会产生虚假的局部最小值或者偏离它们的训练分布。将现有SfM技术应用于弱光环境的基本障碍在于它们的特征提取模块无论是手工设计的还是学习的都会在存在显著噪声时失效。这种失效会传播到下游组件如相机姿态估计和三角化。解决弱光SfM的一个可能方法是增加图像曝光时间但如果没有三脚架固定的拍摄设置手抖可能导致明显的运动模糊。另一种选择是将现成的降噪器应用于噪声低光图像并将结果输入SfM方法。然而这种简单的方法会产生不准确的结果因为它无法保持多视图一致的图像特征。主要贡献在这里我们引入了Dark3R一个用于暗光环境下SfM的端到端框架。我们的关键洞察是将近期3D基础模型如MASt3R学习到的强先验知识适应到弱光环境。受师生知识蒸馏的启发我们开发了一种训练策略该策略将在良好曝光的原始图像对上由MASt3R预测的密集特征图与在弱光原始图像对上由学生模型产生的特征图对齐。至关重要的是Dark3R不需要任何3D监督它仅使用成对的噪声-干净原始图像进行训练这些图像可以直接捕获也可以通过将简单的泊松-高斯噪声模型应用于良好曝光的原始图像来合成。训练Dark3R后我们使用来自预测特征图的对应点并遵循MASt3R-SfM[16]的全局优化和光束法平差阶段从多视角、有噪声的原始图像中恢复相机姿态和稀疏深度图。为了训练和评估Dark3R我们引入了一个全新的、首创的数据集包含约42,000张具有精确3D标注的多视角、包围曝光的原始图像以及另外约20,000张涵盖近100个不同场景的高信噪比多视角原始图像。为了评估我们提供了从高信噪比曝光中导出的参考3D标注作为评估姿态精度的参考。使用这个数据集我们证明了Dark3R能够在先前方法失败的地方实现准确的相机姿态和深度估计——因此我们的工作为被动式3D传感的新应用开辟了弱光环境。此外通过将Dark3R预测的姿态和深度与由粗到精的辐射场优化方案相结合我们实现了在低信噪比设置下进行新视图合成的新能力。方法(a) Dark3R使用配对的干净和有噪声的原始图像进行训练。该模型从预训练的MASt3R网络的权重初始化并使用低秩适应适应弱光条件。我们对编码器、解码器和输出头进行微调。我们通过最小化MASt3R在干净图像对上的编码器特征、解码器特征和对应点图与Dark3R在有噪声图像对上的预测之间的差异来监督训练。(b) 训练后Dark3R预测的姿态和深度图通过由粗到精的优化过程实现了暗光环境下的视图合成。渲染的新视图通过图像信号处理器处理以产生最终的sRGB输出。实验结果图4总结了我们三脚架捕获数据集中五个保留场景的六次包围曝光捕获下姿态估计性能和光度质量与信噪比水平的关系。我们发现基线的性能会下降特别是当信噪比水平低于0 dB时。尽管Dark3R的性能也随着信噪比的降低而下降但其下降速度较慢。我们在表1中展示了额外的定量结果报告了在单个包围曝光设置下四个保留场景的平均指标值。对于这些场景平均图像信噪比范围从-4.76 dB到-2.99 dB性能趋势与图4一致。表1的前几行显示每个场景使用120张输入图像的结果因为扩展到更多图像需要具有48 GB显存的大型GPU。我们发现VGGT[61]和MASt3R-SfM是对Dark3R最具竞争力的方法其中MASt3R-SfM的性能优于VGGT。MASt3R-SfM和Dark3R都可以在没有大型GPU的情况下扩展到500张输入图像。我们展示了在这种设置下的结果我们发现随着我们越来越依赖光束法平差来协调估计的姿态而不是网络的先验知识平均姿态精度略有下降。图6比较了使用两种姿态估计方法和三种神经重建方法的新视图合成性能。对于每个目标信噪比我们为五个测试场景中的每一个选择其平均信噪比最接近目标的曝光设置然后对所有场景的平均信噪比和PSNR/LPIPS进行平均。将Dark3R-NeRF与来自良好曝光参考图像的MASt3R-SfM姿态和深度相结合的oracle配置代表了可达到质量的上限。给定一个有噪声的输入原始图像序列Dark3R-NeRF比使用RawNeRF或LE3D进行重建或使用MASt3R-SfM进行姿态估计能保持更多细节的新视图。由于暗光环境下的时间噪声和传感器特定的逐通道缩放我们观察到重建图像与参考图像之间存在未对准。我们使用重建图像对和参考图像对之间的中值计算每个通道的缩放和平移——受到单目深度估计中对齐策略的启发——然后评估对齐结果的PSNR。我们绘制了所有四个场景和包围曝光捕获的平均PSNR与图像信噪比的关系图这表明随着信噪比的降低我们的方法实现了持续较低的姿态和深度误差以及较高的重建质量。项目网页中包含了额外的视频比较。我们在表2所示的定性结果中看到了类似的趋势其中我们评估了与表1相同的包围曝光设置在保留数据集上的性能。总结 未来工作Dark3R为在先前方法失败的弱光环境下进行SfM开辟了新的可能性。我们的结果指出了未来研究的几个有希望的途径。一个方向是使用大规模架构将我们的框架扩展到前馈预测尽管这可能需要调整其辅助编码器以兼容原始的低信噪比图像。另一个方向是建立在动态三维重建近期工作的基础上可能实现在暗光下捕获的动态场景的SfM。除了这些扩展之外整合生成先验可以进一步提高对极端黑暗的鲁棒性。总的来说我们相信这一研究方向为在传统上被认为被动视觉无法企及的条件下进行稳健的、数据驱动的三维理解奠定了基础。对更多实验结果和文章细节感兴趣的读者可以阅读一下论文原文~本文仅做学术分享如有侵权请联系删文。3D视觉方向论文辅导来啦可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。添加微信cv3d001备注姓名方向单位邀请入群。

更多文章