浙江大学研发:AI机器人能否像人一样“找准角度“拍出同款照片?

张开发
2026/6/7 0:59:09 15 分钟阅读

分享文章

浙江大学研发:AI机器人能否像人一样“找准角度“拍出同款照片?
这项由浙江大学人工智能研究团队完成的研究以预印本形式发布于2026年5月31日论文编号为arXiv:2606.01247感兴趣的读者可通过该编号查阅完整论文。**一个你可能从未意识到自己每天都在做的事**你有没有试过朋友发给你一张在某个地方拍的照片然后你也想在同一个角度拍一张你会怎么做你会先观察照片里出现了什么家具、窗户在哪里、光线从哪个方向射来然后走动几步左转右转蹲下或抬头不断调整直到眼前的画面跟朋友的照片大致重叠这才按下快门。这个过程对人类来说轻而易举几乎是本能反应。然而对于当今最先进的AI来说这居然是一件极度困难的事情。浙江大学的研究团队正是针对这个问题展开了深入研究他们将这个任务命名为目标视角复现Target Viewpoint Reproduction简称TVR并构建了一套完整的测试和训练体系——TVRBench——来衡量AI在这方面的能力究竟有多强以及如何提升它。**一、为什么找到正确角度对AI来说这么难**人类在找角度这件事上其实同时在做好几件复杂的事情把眼前的画面和目标照片进行比较判断自己需要向前走还是向后退、需要向左转还是向右转、需要抬头还是低头然后用身体动作来弥补这个差距同时还要记住自己走过哪些路以免原地打转最后还要在恰当的时机判断够了就是这里并停下来。现有的AI研究在看图说话和理解空间关系方面已经取得了不少进展比如让AI回答图里的椅子在桌子的左边还是右边这类问题。然而这些研究绝大多数都是被动的——照片已经提前准备好了AI只需要看图回答问题不需要自己走动、自己去寻找合适的视角。这就好比让一个厨师评价一道菜好不好吃和让他从头到尾自己做出这道菜是完全不同的挑战。浙江大学的团队意识到真正有用的空间智能不是看图说话而是能够主动行动、主动探索、主动调整最终在三维空间里再现一个指定的视角。**二、TVRBench这块考场究竟长什么样**为了检验AI在这个任务上的表现研究团队搭建了一套名为TVRBench的室内仿真测试平台。整个测试发生在电脑模拟的室内环境里AI扮演一个能够移动和转头的机器人目标是通过自主行动让自己眼中看到的画面与给定的目标照片完全一致。这个平台的设计非常精心覆盖了两种不同的场景规模。一种是单房间场景来自AI2-THOR仿真平台包含厨房、客厅、卧室、卫生间共120个场景。另一种是多房间场景来自ProcTHOR-10k仿真平台每个场景包含两到三个由实体墙隔开的房间共120个场景。测试任务还进一步按照难度分成了四个类别单房间简单、单房间困难、多房间简单、多房间困难。所谓简单任务目标照片里至少要有9个可识别的物体比如沙发、灯、桌子等这些物体就像路标一样帮助AI判断自己站在哪里、该往哪儿走困难任务的目标照片则只有3到6个物体路标极少导航更加费力。与此同时从出发点到目标点的行走距离也有讲究。单房间任务需要2到8步行动而多房间任务则需要10到20步意味着AI必须穿越走廊甚至多个房间才能抵达目标位置。整个测试集共有500道题每类125道。AI的动作选项共有九种向前、向后、向左、向右各走0.25米向左或向右旋转45度抬头或低头30度以及停止——宣告自己已经到达目标位置。AI每次行动后只能看到当前的第一人称视角照片无法看到地图也不知道自己的精确坐标更不知道目标点在哪里。只有当AI喊出停止且位置完全正确时任务才算成功。**三、现有AI的表现惨不忍睹的成绩单**研究团队测试了多个目前最顶尖的AI模型。开源模型包括Qwen3.5-9B、Qwen3.5-27B、Qwen3.6-27B以及两个混合专家架构的模型Qwen3.5-35B-A3B和Qwen3.6-35B-A3B闭源商业模型包括GPT-4o、GPT-5以及谷歌的Gemini-3.1-Pro。与此同时研究团队还邀请了5位真人参与者完成其中100道题作为人类基准。结果令人瞠目在500道测试题中表现最好的开源模型Qwen3.5-27B仅有7.8%的成功率表现最好的闭源模型Gemini-3.1-Pro也只有12%。而人类参与者的成功率高达93%。换句话说AI完成这个任务的能力大约只有人类的八分之一甚至更低。更有意思的是将模型参数量从90亿扩大到270亿成功率的提升极为有限从2.8%涨到了7.8%。即便是顶级商业模型GPT-5也仅能达到8%的成功率。这说明单纯把模型做大并不能解决这个根本性问题。研究团队还特别观察到了两种典型的失败模式。第一种是原地打转——AI不停地左转右转却几乎不走动整个任务过程中实际移动到的不同位置平均只有3.5个但总行动步数却高达34.3步而且83%的步骤都是在重复已经去过的地方。第二种是瞎转圈——AI不停抬头低头在同一个地方反复调整头部角度却毫无进展。统计全部行动分布旋转类动作占了50.8%而真正的身体平移动作只占26.1%停止动作更是仅占可怜的0.1%。研究人员还做了一个关键的控制实验如果把任务简化成只需要在原地转头不需要走动同样的Qwen3.5-9B模型的成功率从2.8%一跃升至80.5%反过来如果只允许走动不允许转头成功率则停留在10%。这个对比清晰地说明AI真正的瓶颈不是看不出两张照片有什么不同而是看出了不同但不知道该怎么走过去。**四、记忆的方式也至关重要**研究团队还测试了两种不同的记忆方式对AI表现的影响。第一种叫做仅动作记忆——AI每一步只能看到当前画面、目标照片以及过去几步做了哪些动作的文字描述比如第5步向前走第6步向右转。第二种叫做视觉-动作记忆——AI可以同时看到过去每一步的实际画面完整的视觉历史都保留在上下文中。实验结果显示对于未经训练的模型仅动作记忆反而比视觉-动作记忆表现更好平均提升约3.8个百分点。这听起来有点反直觉但原因其实很清楚这些模型没有经过专门训练一旦塞进大量历史画面反而会被视觉信息所干扰不知道该关注哪里而只给它动作列表虽然信息更少但至少不会被图片淹没。这揭示了另一个重要的瓶颈现有模型没有能力有效利用多轮视觉历史。**五、训练营能改变局面吗——后训练框架的探索**既然现有AI在这个任务上表现如此之差有没有办法通过专门训练来提升它的能力研究团队以Qwen3.5-9B作为基础模型设计了一套包含四种训练方法的综合框架。第一种方法是专家示范学习SFT监督微调。研究团队先用一个有上帝视角的规则程序在模拟环境里自动生成1600条最优行走路径这个程序知道地图、知道目标坐标能规划出最短路线。然后把这些示范路径喂给AI让它通过模仿来学习该怎么走。这就像教一个孩子开车不是让他自己摸索而是先让教练示范标准驾驶动作再让他反复练习。在使用视觉-动作记忆的条件下这种方法把Qwen3.5-9B的成功率从2.8%大幅提升到了50.8%是一个相当显著的进步。第二种方法是加入推理过程的示范学习CoT-SFT思维链监督微调。在上述示范路径的基础上研究团队额外借助MiMo-V2.5模型为每一个动作生成一段理由比如当前画面里桌子在右侧目标照片里桌子在正前方所以应该向右转。理论上这种带有推理过程的示范应该帮助AI知其然也知其所以然。然而结果出乎意料加入推理过程反而降低了成功率。使用仅动作记忆时从44.2%下降到24.8%使用视觉-动作记忆时从50.8%下降到35.6%。这说明至少在当前的标注方案下这种文字推理的监督并不能帮助AI更好地完成需要连续行动的导航任务甚至会干扰它学习有效的动作模式。第三种方法是单步强化学习Single-turn GRPO。这种方法不再训练整个行走过程而是把每一步单独拿出来训练给AI看当前画面和目标照片问它这一步该做什么然后根据它的回答是否与专家答案一致来给予奖励或惩罚。这种方法在单步预测的准确率上达到了72%但在真实的连续任务测试中成功率却从44.2%大幅下降到26.2%。这个反差揭示了一个深刻的道理在实验室里每道题单独答对和在真实场景中连续做30个决策都不出错是完全不同的能力。好比一个学生单独做每道选择题能答对70%但在真正的考试中却因为前面答错一道题导致后面的判断全部连锁出错。第四种方法是多轮强化学习Multi-turn GRPO。这种方法让AI在真实的模拟环境里实际走动每走完一整条路径才进行一次总体评分——奖励信号不只看最后有没有到达目标还包括整个过程中是否逐步靠近目标、有没有无效的原地打转、有没有在错误的位置提前喊停等。这就好比跑马拉松不是只看最终成绩而是全程都有教练在旁边实时指导。这种方法在视觉-动作记忆的基础上将成功率从50.8%进一步提升到了51.4%整体提升幅度虽然不大但提升来自哪里很有意义多房间简单任务的成功率从27.2%提升到了34.4%多房间困难任务从24.8%提升到25.6%恰好是之前示范学习最薄弱的那些场景。**六、训练背后的细节数据是如何准备的**为了让读者对整个训练过程有更完整的了解有必要介绍一下数据的分配方式。研究团队将240个场景按照1:2:3的比例分成了三个互不重叠的池子最小的用于示范学习SFT池其次用于最终测试评估池最大的用于强化学习RL池。这样的划分确保了测试时用到的场景在训练阶段从未被AI见过真正测试的是泛化能力而非记忆能力。示范学习共生成了1600条轨迹每条轨迹由三个阶段组成首先调整头部朝向使视角方向与目标一致然后用最短路径算法规划地面行走路线最后喊停。规划路线的算法使用的是经典的Dijkstra最短路算法每条示范轨迹都是动作数量最少的最优路径。对于强化学习部分多轮强化学习使用了4800条任务来自120个RL场景每个场景40条任务每次训练时AI会在同一个任务上生成8条不同的轨迹然后通过比较这8条轨迹的好坏来判断哪种走法更值得强化。奖励信号由四部分叠加而成每走一步扣除一小点奖励以鼓励效率每次发出的动作格式正确给予小奖励、格式错误则扣分只有当AI靠近目标的距离超过了历史最近距离时才给予进步奖励回头走老路不算进步以及在正确位置喊停给予高额奖励、在错误位置喊停则受到惩罚。**七、人类是怎么测试的**为了建立一个公平的人类基准研究团队邀请了5位志愿者每人完成100道题四个类别各25道。他们通过一个网页界面操作左边显示当前的第一人称视角画面右边显示目标照片用键盘上的W/S/A/D键控制前后左右移动Q/E键控制左右旋转R/F键控制抬头低头空格键宣告完成。整个测试的图像分辨率、动作选项、步数上限和成功判定标准与AI测试完全相同因此两者的数据可以直接比较。**八、为什么思维链CoT没有帮上忙**这个发现值得单独解释因为在很多其他AI任务里让模型先想清楚再说——也就是生成推理过程——往往能显著提升表现。然而在TVR这个任务里效果相反。研究团队认为问题可能出在推理过程的标注方式上。每个推理步骤的文字描述是由MiMo-V2.5模型生成的它被要求为每一步专家动作提供一个1到3句话的理由。但这种事后解释的推理和AI真正在连续行动中需要用到的空间规划能力可能并不是同一回事。更重要的是TVR任务的每条轨迹长达30到40步如果每步都带着一段推理文字整个上下文会变得非常冗长反而让模型在处理时更容易混乱。值得注意的是研究团队也坦承是否存在更适合TVR任务的CoT监督方式目前仍是一个开放问题。**九、强化学习为何要在真实环境里训练才有效**单步强化学习的失败恰好反衬出多轮强化学习的价值所在。一个每步单独训练的模型只学会了在专家演示的场景下该怎么做从未学过如果前面走错了接下来该怎么纠正。而在真实环境里反复尝试、反复犯错、反复获得奖励信号的多轮训练让模型有机会接触到各种非最优状态并在这些状态下学会如何恢复和前进。从另一个角度也能看出这一点研究团队还做了一个实验直接用未经示范学习的原始模型进行多轮强化学习结果成功率从0%提升到了26.2%——虽然远不如先做示范学习再做强化学习51.4%但起码能从零开始自己摸索出一套可行策略。而单步强化学习从原始模型出发最终只能到达3.6%。**十、这项研究意味着什么**归根结底这项研究揭示了当前AI空间智能的一个核心短板能看懂空间不代表能行动于空间。现有的大模型在静态空间理解题目上已经表现不错但一旦需要把这种理解转化为连续的身体行动就会出现严重的能力断层。研究团队通过TVRBench这套测试体系把这个断层清晰地量化了出来。更重要的是他们通过对比四种训练方法找到了目前最有效的提升路径用视觉-动作历史进行示范学习打下基础成功率从2.8%升至50.8%再通过在真实环境里的多轮强化学习在最薄弱的多房间场景上进一步精调总体成功率提升至51.4%。当然研究团队也坦诚地指出了这项工作的局限性。整个测试发生在虚拟仿真环境里采用的是离散的位置网格和严格的精确匹配判定标准这与现实世界中模糊、连续、容错的导航场景还有相当大的距离。所有后训练结论也只在Qwen3.5-9B这一个模型上验证过是否能推广到其他模型家族、其他规模以及其他主动感知任务还需要进一步研究。从更长远的视角看这个任务的意义远不止于拍同款照片。能够准确复现指定视角的AI可以应用于室内导航机器人、无人机摄影、虚拟现实体验、远程手术辅助等众多场景。研究团队已经将TVRBench的代码、数据集和训练好的模型全部开源供更多研究者在此基础上继续探索。对于AI能否真正获得类人的空间行动智能这或许只是一个开始。---QAQ1TVRBench测试的任务具体是什么为什么不直接用现有的图像导航测试ATVRBench测试的是目标视角复现任务即让AI在三维室内环境中主动行走和转头直到自己看到的画面与给定的目标照片完全一致位置、朝向、头部角度都必须精确吻合才算成功。现有图像导航任务如ImageNav只要求AI到达目标区域附近不要求最终视角与目标照片匹配因此测试的能力有本质区别。TVRBench专注于视角的精确复现而非粗略的位置接近。Q2为什么给AI加入推理过程思维链反而让成功率下降了A在这个研究里添加推理过程会让训练数据中每一步都带有一段文字说明导致整条轨迹30到40步的上下文变得极长模型容易被大量文字信息干扰而偏离核心的动作学习。更关键的是这些推理文字是由另一个模型事后补充的解释与连续行动中真正需要的空间规划能力存在差距并不能有效指导模型学习实际的导航决策。Q3多轮强化学习比单步强化学习效果好很多原因是什么A单步强化学习每次只训练一个孤立的动作决策模型只在专家示范过的场景状态下学习从未接触走错了该怎么办的情况导致在真实连续任务中一旦出现偏差就无法恢复错误会不断累积。多轮强化学习让AI在真实环境里完整地走完整条路径能接触到各种非最优的中间状态并通过整条轨迹的综合奖励信号学会如何纠错和恢复因此更适合这类需要多步决策的主动感知任务。

更多文章