亚马逊发布Perceptio:让AI拥有“立体视觉“的突破性技术

张开发
2026/4/23 2:02:10 15 分钟阅读

分享文章

亚马逊发布Perceptio:让AI拥有“立体视觉“的突破性技术
这项由亚马逊团队领导的研究发表于2026年3月19日的计算机视觉会议论文集论文编号为arXiv:2603.18795v1。感兴趣的读者可以通过该编号查询完整论文。这项突破性研究首次让大型视觉语言模型拥有了类似人类的立体视觉能力能够同时理解图片中是什么和在哪里的问题。当我们看到一张照片时大脑会自动分析出画面中有什么物体这些物体分别在什么位置哪个离我们更近哪个更远。这种能力对人类来说轻而易举但对AI来说却一直是个巨大挑战。目前的AI视觉模型虽然能够准确识别出照片中有什么东西却很难判断这些物体的空间位置关系。亚马逊研究团队开发的Perceptio模型就像给AI安装了一套全新的视觉系统。这套系统不仅能识别物体还能生成详细的深度图和分割图告诉我们每个物体的精确轮廓和距离信息。这就好比给AI戴上了特殊的眼镜让它既能看清楚这是什么又能判断这在哪里甚至能回答哪个更近这样的问题。研究团队的创新在于让AI学会了一种特殊的思考方式。当AI看到一张图片并收到问题时它不再直接回答而是先在内部生成一系列特殊的感知标记——包括物体轮廓标记和深度标记。这些标记就像是AI的内心独白帮助它理解空间关系后再给出答案。这种方法被称为感知增强的思维链让AI的推理过程更加接近人类的视觉认知过程。一、AI视觉的近视眼问题现代的大型视觉语言模型就像是非常聪明但有些近视的学生。它们在语义理解方面表现出色能够准确识别图片中的各种物体描述复杂的场景甚至进行深入的对话。然而一旦涉及到空间关系的判断这些模型就显得力不从心。亚马逊研究团队通过一个名为BLINK的测试发现了这个问题的严重性。BLINK测试包含一些人类眨眼间就能完成的简单空间判断任务比如指出照片中哪个物体离相机更近。令人惊讶的是即使是目前最先进的AI模型在这些测试中的表现也仅仅比随机猜测稍好一些。这就像让一个博学的教授去判断桌子上哪个杯子离他更近结果他却答不上来一样尴尬。这种语义强、空间弱的现象其实有其深层原因。传统的AI训练主要依靠互联网上的图片和文字描述这些描述往往关注的是是什么而不是在哪里。模型学会了将视觉特征转换为语言描述但在这个过程中精确的空间信息往往被压缩或丢失了。更具体来说目前的模型架构通常将图片编码成固定长度的特征向量然后直接用这些向量来生成文字回答。这个过程就像把一幅立体的油画压缩成一行文字描述一样虽然能保留主要内容但空间层次信息却被抹平了。研究发现即使是拥有260亿参数的InternVL2.5模型在HardBLINK的距离判断任务中也只能达到33.1%的准确率远低于人类的表现水平。二、给AI装上立体眼镜Perceptio的核心创新就像给AI装上了一副特殊的立体眼镜。这副眼镜有两个特殊的镜片一个负责看清物体的精确轮廓另一个负责感知深度距离。这两个镜片分别对应着语义分割和深度感知两大核心技术。语义分割镜片的工作原理类似于给照片中的每个物体描边。当AI看到一张包含多个物体的复杂场景时这个功能会自动为每个物体生成精确的轮廓线就像用不同颜色的笔在透明纸上勾勒出每个物体的边界一样。这种精确的轮廓信息帮助AI理解物体的确切形状和边界为后续的空间推理提供了重要基础。深度感知镜片则负责构建场景的三维结构。它会为图片中的每个像素分配一个深度值生成类似于地形图的深度图。在这张地形图中不同的颜色或亮度代表不同的距离近处的物体显示为高地远处的物体显示为低地。通过这种方式AI能够理解场景的立体结构判断物体之间的前后关系。研究团队在实现这两个功能时采用了一种巧妙的标记化策略。他们将复杂的分割图和深度图转换成特殊的标记序列就像把图片信息翻译成AI能够理解的特殊语言。这些标记被直接嵌入到AI的文字生成过程中形成了分割标记-深度标记-文字回答的特殊序列。这种设计的精妙之处在于它遵循了人类视觉认知的自然规律。当人们看到一个复杂场景并被问及相关问题时大脑会首先快速分析场景结构识别物体轮廓感知空间关系然后基于这些感知信息来组织语言回答。Perceptio正是模拟了这个过程让AI在回答问题之前先看清楚场景的详细结构。三、深度信息的数字化翻译将连续的深度信息转换成AI能理解的离散标记这个过程就像把一幅连续色彩的油画转换成像素画一样。研究团队采用了一种叫做VQ-VAE矢量量化变分自编码器的技术来完成这个翻译工作。这个翻译过程分为几个步骤。首先研究团队使用专门的深度估计模型为每张训练图片生成高质量的深度图。这些深度图就像是场景的等高线地图准确记录了每个位置到相机的距离。然后VQ-VAE会学习将这些连续的深度值打包成一本特殊的词典这本词典包含128个不同的深度词汇每个词汇代表一种特定的深度模式。当AI需要描述一个场景的深度信息时它会将深度图分割成若干小块每个小块都用词典中最合适的词汇来表示。这就像用有限的颜色块来拼出一幅复杂的马赛克画一样。虽然丢失了一些连续性的细节但保留了足够的信息来重构出原始深度图的主要结构。为了让这个翻译过程更加稳定可靠研究团队设计了三个特殊的训练目标。第一个叫做标记损失确保AI生成正确的深度标记序列。第二个是计数损失保证生成的标记数量符合预期。第三个是定位损失确保深度标记出现在序列中的正确位置。这三个目标就像三个严格的老师从不同角度监督AI学习正确的深度表达方式。研究团队还创新性地引入了软融合技术来解决训练过程中的一个技术难题。在传统方法中从连续深度图到离散标记的转换过程是不可微分的这意味着训练信号无法有效地传递回去改进模型。软融合技术通过计算加权平均的方式让这个转换过程变得平滑可微从而实现了端到端的训练优化。四、多任务协同训练的智慧Perceptio的训练过程就像培养一个全能型选手需要在多个不同领域同时练习并达到专业水准。研究团队设计了一套多任务协同训练策略让AI同时学习语言理解、物体分割和深度感知三项核心技能。这种训练方式的挑战在于平衡不同任务的重要性。研究团队为每个任务设定了不同的权重就像调配营养餐一样精心搭配各种营养元素。语言生成任务作为基础能力保持较高权重而分割和深度任务的权重则根据实验结果精心调节。最终的配方是语言损失权重为1.0分割重建损失权重为1.0深度标记损失权重为1.0深度重建损失权重也为1.0。训练数据的准备工作同样精细入微。研究团队构建了一个包含110万样本的综合数据集这个数据集就像一个丰富的经验库涵盖了各种不同类型的视觉推理任务。其中包括66.5万个来自LLaVA-1.5的图像问答对话样本21.4万个用于图像级文本驱动分割的对话生成样本还有6万个专门的感知标记数据集样本。此外团队还特别制作了5.6万个结合了分割、深度和文本的联合数据集样本。在这个联合数据集中每个样本都包含完整的感知链条原始图片、对应的分割掩码、深度信息和自然语言描述。这样的设计让AI能够学习到这些不同模态信息之间的内在联系理解它们是如何相互支撑、共同构成完整视觉理解的。训练硬件配置也体现了这项研究的规模和复杂性。整个训练过程在64块NVIDIA A100 GPU上进行持续约24小时。研究团队采用了AdamW优化器学习率设置为4×10??有效批次大小为512。这些参数经过精心调试确保模型能够稳定地同时学习多个复杂任务。五、令人瞩目的性能突破Perceptio在各项测试中的表现就像一个突然开窍的学生在多个维度都实现了显著提升。在最具挑战性的referring expression segmentation指称表达分割任务中Perceptio-8B模型在RefCOCO、RefCOCO和RefCOCOg三个数据集上分别达到了82.7%、77.9%和80.0%的cIoU得分相比之前的最佳模型Sa2VA-8B分别提升了1.1、1.7和1.3个百分点。这种提升的意义可以通过一个具体场景来理解当你指着一张复杂的街道照片说找出右边穿红衣服的那个人时Perceptio能够更准确地定位并勾勒出该人物的精确轮廓。这种精确性的提升在实际应用中意味着更好的用户体验和更可靠的系统性能。在空间推理能力方面Perceptio的表现更是令人印象深刻。在HardBLINK的相对深度判断任务中当面对包含3个、4个和5个标记点的复杂场景时Perceptio-8B分别达到了75.8%、71.0%和66.1%的准确率平均准确率为71.0%。这相比之前的最佳模型LLaVA-Aurora提升了8.9、10.5和11.3个百分点平均提升达到了10.3个百分点。这种大幅提升表明显式的深度感知确实为空间推理带来了根本性改善。在通用视觉语言理解任务上Perceptio也保持了优秀表现。在MME基准测试中Perceptio-8B在感知和认知两个维度分别获得了1654和628分的成绩。在MMBench测试中达到了83.4%的准确率在SEED-Bench中获得75.7%的分数。这些结果表明增加感知能力并没有以牺牲原有语言理解能力为代价反而在某种程度上增强了模型的综合表现。特别值得一提的是Perceptio-4B这个较小的变体同样表现出色在多个测试中的成绩甚至超过了一些更大参数量的竞争模型。这表明Perceptio的架构设计是高效的不仅能在大模型中发挥作用也能在资源受限的环境中提供良好性能。六、创新方法的深入剖析Perceptio的技术创新可以比作一套精密的视觉处理流水线。当一张图片进入系统时它会被分发到三个并行的处理通道标准的图像编码通道、专门的分割感知通道和深度量化通道。这三个通道就像三个专业的技师各自负责提取不同类型的视觉信息。标准图像编码通道负责提取语义外观特征这些特征包含了物体的类别、颜色、纹理等基本视觉属性。分割感知通道则使用冻结的SAM编码器来生成分割感知的表示这些表示特别擅长捕捉物体边界和形状信息。深度量化通道利用预训练的VQ-VAE编码器将图片转换成离散的深度标记序列。这三路信息最终汇聚到核心的大语言模型中形成一个统一的多模态表示。语言模型学会了如何协调使用这些不同类型的信息在生成回答时首先输出特殊的感知控制标记然后基于这些内部感知来生成最终的文字回答。损失函数的设计体现了研究团队的深思熟虑。除了标准的语言建模损失外系统还包含了分割重建损失和一套创新的深度损失函数。深度损失函数由三个组成部分标记损失确保正确的深度标记被生成计数损失保证标记序列长度的一致性定位损失确保标记出现在正确的位置。这种多重约束的设计就像给AI安装了多个质量检查员从不同角度确保输出的质量。软重建技术是另一个重要创新。传统的离散化过程会阻断梯度传播使得端到端训练变得困难。研究团队通过加权平均的方式创造了一个可微分的软重建过程让训练信号能够有效地从最终的深度重建损失传播回语言模型的参数。这种技术细节的创新虽然看似微小却是实现整个系统有效训练的关键。七、全面的实验验证与分析研究团队进行了详尽的消融实验来验证每个设计组件的作用。这些实验就像拆解一台精密机器逐一检验每个零件的功能和重要性。首先团队验证了双重感知能力的必要性。当移除深度感知功能只保留2D分割时模型在HardBLINK深度推理任务上的平均准确率从71.0%暴跌到45.2%下降了25.8个百分点。这个巨大的性能落差清楚地表明3D深度信息对于空间推理确实至关重要。相反当移除分割功能只保留3D深度感知时模型在通用VQA任务上的表现出现了普遍下降MME得分从1654/628下降到1620/585MMBench准确率下降了1.6个百分点SEED-Bench得分下降了2.3个百分点。这表明2D语义分割信息对于全面的视觉理解同样不可或缺。损失函数组件的消融实验进一步证实了设计的合理性。移除深度重建损失后MME得分下降到1625/613MMBench准确率降至81.9%。移除深度标记生成损失时MMBench准确率下降到82.4%SEED-Bench得分从75.7%降至74.3%。这些结果表明每个损失组件都在系统的整体性能中发挥着重要作用。有趣的是实验还揭示了一个优化权衡的现象。当移除深度标记时某些通用VQA指标实际上出现了轻微提升如MMBench提升0.4%。这表明深度标记生成与纯文本任务之间存在一定的优化竞争。不过考虑到深度感知带来的巨大空间推理优势这种微小的通用任务性能波动是完全可以接受的。推理效率的测试显示尽管Perceptio需要生成额外的感知标记但实际的计算开销极其有限。在密集标题生成任务中Perceptio-8B每100个标记的生成时间为3.52秒与Sa2VA-8B的3.53秒几乎相同。浮点运算量对比也显示了类似的结果4.06T vs 4.66T FLOPs。这意味着性能提升是通过更好的架构设计而非更多的计算资源实现的。八、实际应用场景的广阔前景Perceptio的技术突破为多个实际应用领域打开了新的可能性。在自动驾驶领域这种增强的空间感知能力可以帮助AI更准确地判断道路上各种物体的距离和位置关系从而做出更安全的驾驶决策。当AI能够精确区分前方是一个真实的行人还是广告牌上的人像时这对行车安全的意义是不言而喻的。在机器人导航和操作任务中Perceptio的能力同样具有重要价值。家用服务机器人需要准确理解家居环境中物体的空间排列才能安全有效地完成诸如整理房间、端茶送水等任务。有了精确的深度感知和物体分割能力机器人就能更好地规划路径避免碰撞并精确操作各种物品。在增强现实和虚拟现实应用中Perceptio技术可以实现更自然的人机交互。用户可以通过自然语言描述来选择和操作虚拟环境中的特定物体而AI能够准确理解用户的意图并定位到相应的虚拟物品。这种精确的空间理解能力将使AR/VR体验变得更加直观和沉浸。医疗影像分析是另一个潜在的应用领域。虽然医疗影像通常需要专门的训练但Perceptio展示的空间推理能力为开发更智能的医疗AI助手提供了新思路。能够准确分割和定位病灶区域的AI系统将为医生提供更有价值的诊断支持。在电商和零售领域这种技术可以改善商品搜索和推荐体验。消费者可以上传一张包含多个物品的照片然后用自然语言描述想要购买的特定物品AI就能准确识别和定位目标商品。这种精确的视觉理解能力将使购物体验变得更加便捷。九、技术局限与未来发展方向尽管Perceptio取得了显著进展但研究团队也诚实地指出了当前方法的一些局限性。最明显的是在优化权衡方面深度标记生成与纯文本任务之间存在轻微的竞争关系。这表明在多任务学习中仍需要更精细的平衡策略可能需要开发任务自适应的课程学习方法来解决这个问题。当前的系统架构还局限于静态图像处理尚未扩展到视频理解领域。在视频场景中时间一致性的深度标记和物体跟踪将带来新的技术挑战。如何在保持空间精度的同时处理时间维度的复杂性是一个值得深入探索的研究方向。另一个重要局限是对教师模型的依赖。Perceptio目前依赖于冻结的专业教师模型Depth Anything V2和SAM2这些模型的误差会传播到学生模型中。开发更鲁棒的学习策略来应对教师模型的噪声是提高系统实用性的关键。在更广阔的视角下这项研究也启发了关于通用空间智能的思考。未来的发展方向可能包括将感知标记扩展到编码表面法线、光流等更丰富的空间信息朝着统一的空间智能框架发展。这种框架将能够在单一的自回归框架内处理各种空间推理任务。计算效率的进一步优化也是一个重要方向。虽然当前的额外计算开销很小但在大规模部署时任何效率提升都具有重要意义。研究团队提到了任务自适应课程学习的可能性这种方法可能在保持性能的同时进一步提高训练效率。最后如何将这种显式的空间感知能力与更广泛的常识推理相结合仍然是一个开放的研究问题。真正的视觉智能不仅需要精确的感知能力还需要理解物体之间的物理关系、功能关系和因果关系。说到底Perceptio的出现标志着AI视觉理解领域的一个重要里程碑。它首次成功地将2D语义分割和3D深度感知统一到了单一的自回归语言模型中让AI获得了更接近人类的视觉认知能力。这种先感知后推理的设计理念不仅带来了实质性的性能提升更重要的是为构建真正智能的视觉系统指明了方向。虽然还存在一些局限性但这项研究已经证明了显式空间感知对于视觉语言模型的重要性。随着技术的不断发展和完善我们有理由期待看到更多能够真正理解三维世界的AI系统出现。这些系统将不仅能够看到世界的表面更能够理解世界的深层结构从而为人类提供更智能、更可靠的视觉AI服务。对于有兴趣深入了解技术细节的读者建议查阅完整的论文原文论文编号为arXiv:2603.18795v1。QAQ1Perceptio和传统AI视觉模型有什么不同A传统AI视觉模型只能识别图片中的物体类别就像只能回答这是什么的问题。而Perceptio能同时理解是什么和在哪里它会先生成物体轮廓和深度信息的特殊标记然后基于这些空间感知来回答问题就像给AI装上了立体眼镜。Q2Perceptio的深度感知能力有多准确A在HardBLINK空间推理测试中Perceptio-8B达到了71.0%的平均准确率相比之前最好的模型提升了10.3个百分点。这意味着它能正确判断照片中哪个物体离相机更近的概率超过70%这是一个显著的突破。Q3Perceptio技术什么时候能应用到实际产品中A目前Perceptio还在研究阶段但其技术原理已经为多个应用领域指明了方向包括自动驾驶中的距离判断、机器人导航、增强现实交互等。具体的产品化时间表还需要看后续的工程化进展和计算资源优化情况。

更多文章