ICLR 2026｜上海交通提出 π³，突破参考视图束缚，提升 3D 几何重建鲁棒性

张开发

• 2026/4/17 6:15:12 • 15 分钟阅读

分享文章

ICLR 2026｜上海交通提出 π³，突破参考视图束缚，提升 3D 几何重建鲁棒性

该篇论文被 ICLR 2026 录用。论文标题 π³: PERMUTATION-EQUIVARIANT VISUAL GEOMETRY LEARNINGGitHub项目https://github.com/yyfz/Pi3论文链接https://www.lab4ai.cn/paper/detail/reproductionPaper?utm_sourcecsdn_pi3id6ce923eecb1047d0b59c8689c27cb2ed01 引言视觉几何重建是计算机视觉领域的核心任务广泛应用于 AR、机器人、自主导航等场景。不管是传统 SfM、MVS还是近几年最火的 DUSt3R、VGGT、FLARE 等前馈 3D 重建模型全都有一个沿用了几十年的默认操作用多张照片重建 3D 场景时必须先选一张当 “主参考照片”。但这个设计藏着缺陷过度依赖“主角” 之前的模型如 DUSt3R 或 VGGT通常需要选定一张照片作为参考视图并以它的视角作为整个 3D 世界的中心。脆弱的稳定性如果选定的那张参考照片拍得不好比如太模糊、光照差或遮挡多整个场景的重建就会由于“先入为主”的偏见而彻底失败。顺序敏感同样的几张照片如果输入的顺序变了或者选了不同的照片当“主角”出来的结果往往大相径庭这在实际应用中是非常危险的。于是论文作者直接给出了一个颠覆性答案我们干脆不要主参考照片了作者提出一个排列等变模型不依赖参考帧、不依赖输入顺序照样实现高精度、高速度的 3D 几何重建。PS大模型实验室Lab4AI提供科研skills赋能科研全流程。02 核心思路2.1 排列等变架构以前的 AI 就像一个性格古怪的摄影师你给它一组照片它必须死板地认定第一张或者它自认为最好的一张照片为绝对中心所有其他照片都要围着它转。这种先入为主的偏见让 AI 变得极其敏感。一旦这张中心照片拍得模糊、光照不好或者你只是调换了一下照片的顺序AI 就会‘闹情绪’最后生成的 3D 模型轻则走形重则直接崩溃。π³ 带来的最大突破就是实现了一种“完全排列等变”架构。什么是排列等变架构π³模型在处理照片时把所有照片放在一个圆桌会议上平等对待。即无论你给它的照片序列是 1-2-3 还是 3-1-2模型都能给每张图精准地算出它的相机位置、立体形状和自信度。那这是如何做到的呢为了让模型达到这种不看顺序、只看内容的效果研发团队做了以下工作撕掉“排号标签” 以前模型会给照片贴上“第1帧”、“第2帧”的标签这会让 AI 产生先入为主的偏见π³索性把这些标签全撕了。取消“主角光环” 团队去掉了所有专门用来标记“参考视角”的特殊指令。平等对话它借用了 DINOv2来理解照片并让照片之间进行“全员大讨论”共同商量出最优的 3D 方案。这么处理能够实现无论选哪张照片当头或者把序列怎么乱排重建出来的 3D 质量都一样稳。2.2 尺度不变的局部几何如果说排列等变解决了 AI 的偏见问题那么尺度不变几何就解决了 AI 的空间感。对于每一张输入的照片AI 都会先画出一份 3D 点云图。但这时候有一个大难题比例尺模糊。通俗点说AI 看到照片里的一辆车它分不清那是 5 米外的一辆真车还是 0.5 米外的一个玩具车模型。在单张照片里物体的远近和大小是很难绝对分清的。为了解决这个问题π³做到保证在同一组照片里即使不知道绝对尺寸但它用的比例尺完全一致。首先AI 会通过ROE 求解器找到一个最完美的“奇迹倍数”把所有的“小素描”同时放大或缩小直到它们能完美地套在真实的场景上。定好大小之后AI 还要负责把 3D 模型修饰得更真实法线损失如果只看点云表面可能会坑坑洼洼。AI 会计算每个点对应的“表面方向”。它要求自己画出来的表面必须像镜面或墙面一样平滑自然不要有奇怪的突起。置信度图AI 还会给自己打分。它会预测一张“置信度图”告诉我们哪些地方它画得非常肯定哪些地方它只是在瞎猜。如果它画的 3D 点和真实情况差得太远这个点的得分就会很低。π³并不死记硬背物体绝对有多大而是学会了在不同视角间统一比例尺。再加上法线磨皮和置信度评分它不仅能复原出一个立体的世界还能确保这个世界表面平滑并且对自己的错误‘心中有数’。2.3 仿射不变的相机姿态在以前的模型中必须要定一个坐标原点比如第一张照片的位置。但在 π³ 中因为大家都是平等的所以没有绝对的原点。通俗点说这就像是在茫茫大海上导航如果你找不到北极星参考帧你就没法说出自己的绝对经纬度。你只能说“我在 A 船左边 10 米面向 B 船”。这种不依赖绝对位置、只看物体之间相对关系的特性就是仿射不变性。为了训练 AI 找准位置研究团队不再告诉它“你在地图的哪个点”而是教它计算两两照片之间的相对位置。旋转两张照片的角度转了多少这个是固定的比较好算。平移两张照片之间离了多远这里又遇到了那个“比例尺”难题。因此为了让 AI 成为定位高手论文设计了两个考核指标测地线角度损失专门考核“旋转”准不准要求 AI 预测的角度与实际角度的偏差越小越好。Huber 平移损失专门考核“距离”准不准。使用 Huber 损失是为了让 AI 更有“包容性”不要因为一两张拍坏的照片就影响整体定位。π³ 的相机定位就像是一个不需要 GPS 的老司机。它不关心自己在地图上的绝对经纬度而是通过观察每两张照片之间的“邻里关系”来锁定位置。2.4 模型训练研究人员给 AI 制定了一份多维度的评分标准具体包括四个指标点重建损失考察 3D 形状画得准不准。法线损失考察表面修得平不平滑。置信度损失考察 AI 有没有自知之明知道哪画错了。相机姿态损失考察相机位置是否正确。并且使用15 个不同的大型数据库进行训练包括游戏场景、室内扫描和互联网照片等行业顶尖的数据源。让π³具备了极强的适应力无论是游戏画面还是手机实拍它都能轻松应对。03 实验结果3.1 相机姿态估计在 RealEstate 10K 和 Co3Dv2 上进行测试角度准确性评估在 Sintel、TUM-dynamics 和 ScanNet 上评估测试轨迹误差。在 Sintel 和 RealEstate 10K 的零样本泛化测试中 Sintel 数据集的相机轨迹误差 (ATE)从 VGGT 的 0.167 大幅降低至 0.074 RealEstate 10K 的旋转精度RRA 达到 99.99%。3.2 点图估计π³使用DTU、ETH3D 数据集评估模型重建多视图点云的质量包括准确度、完整性和法线一致性。在 ETH3D 场景重建中其准确度Acc.达到 0.194优于 VGGT 的 0.280完整度也表现出色。3.3 深度估计在视频深度估计方面π³不仅在精度上实现了质的飞跃在运行效率上更是展现出降维打击般的优势。在视频深度估计任务中其绝对相对误差Abs Rel在 Sintel 数据集上从 VGGT 的 0.299 降低至 0.233Bonn 数据集上从 0.057 降至 0.049而在 KITTI 数据集上则从 0.062 优化到了 0.038。04 总结π³通过全排列等变设计彻底消除固定参考视图的归纳偏置构建了鲁棒、高效、可扩展的前馈式视觉几何重建模型在多项核心任务上刷新 SOTA。该研究存在局限性无法处理透明物体重建几何细节精度不及扩散类方法点云生成易产生网格状伪影。未来可围绕透明物体建模优化、几何细节精度提升、点云生成伪影消除等方向展开拓展研究。关注“大模型实验室Lab4AI”第一时间获取前沿AI技术解析

ICLR 2026｜上海交通提出 π³，突破参考视图束缚，提升 3D 几何重建鲁棒性

最新文章

vConTACT3: 机器学习实现可扩展和系统的病毒层级分类

OpenCV copyMakeBorder实战：5分钟搞定证件照换底色与加白边（Python/CPP双版本）

2026年4月16日人工智能早间新闻

Zynq UltraScale+ RFSoC平台Petalinux工程创建与启动配置全解析（从XSA到SD卡）

DownKyi终极指南：3步轻松搞定B站高清视频下载

Windows 11经典游戏联机终极方案：IPXWrapper完整配置指南

推荐文章

【读书笔记】《背影》

PCB布局踩坑实录：FB走线怎么布，才能让你的COT电源不振荡？（附MPS芯片实战案例）

LSM6DS0惯性测量单元驱动开发与嵌入式IMU实战

HD44780大字体显示方案：基于CGRAM的嵌入式字符放大技术

i18n 2026.04.11

电子取证必备：U盘镜像分析中的FAT32/NTFS文件系统恢复技巧大全

相关文章

如何为AMD 780M APU解锁2-3倍AI性能？ROCmLibs-for-gfx1103终极优化指南

企业内网必看：用U盘搞定Ubuntu服务器Docker离线部署（含依赖树分析）

OpenCode智能编程助手全面部署指南：从环境搭建到高级应用

大语言模型背后的秘密：从预训练到微调，揭秘LLM高效训练的核心技术（含QLoRA/ZeRO实战）

RBDdimmer：嵌入式AC相位调光库详解

新手零失败指南：利用快马ai轻松完成openclaw的ubuntu环境搭建

分享文章

更多文章

避开矩阵论学习中的那些“坑”：关于最小多项式、广义逆与向量化算子的常见误区解析

永辉超市第一季营收134亿：同比降24% 累计关闭394家门店净利2.9亿

StructBERT零样本分类-中文-base低资源适配：方言/网络用语/缩写文本鲁棒性测试

5个关键步骤搞定乐鑫ESP32在Win7下的ESP-IDF环境配置与hello_world烧录

AI代码审查不是替代开发者，而是接管重复劳动：Gartner验证的12项ROI指标，你达标了几项？

丹青幻境Z-Image Atelier快速上手：从部署到生成第一幅国风AI画作

1995-2025年《中国高技术产业统计年鉴》EXCEL+PDF

别再手动测了！用CANoe的CAPL TestModule实现自动化测试（附完整脚本示例）

终极指南：vJoy虚拟摇杆驱动在Windows平台的完整应用方案

别怕AI部署！用STM32CubeAI插件，10分钟搞定你的第一个单片机AI应用（从数据生成到上板推理）

STM32无刷直流电机驱动实战：H_PWM_L_ON模式详解

Qwen3-ForcedAligner-0.6B性能实测：1.7GB显存跑0.6B模型，CTC对齐仅2.3s