这项由艾伦人工智能研究院Allen Institute for AI领导的突破性研究发表于2026年论文编号为arXiv:2603.16861v1。研究团队包含来自华盛顿大学、普林斯顿大学、加州大学洛杉矶分校以及德国达姆施塔特工业大学的研究人员他们共同挑战了机器人学习领域的一个根深蒂固观念——仅靠模拟训练无法让机器人在真实世界中有效工作。说起机器人学习过往的主流观点就像是纸上谈兵不行必须真刀真枪练。无论是英伟达的GR00T、谷歌DeepMind的Gemini Robotics还是Physical Intelligence的π0系列这些业界顶尖的机器人系统都需要大量真实世界的数据来训练。研究人员普遍认为模拟训练只能起到预热作用要想让机器人在真实环境中可靠工作还是得用真实世界的数据进行微调或适配。然而这种传统做法就像是让学生只能在真实考场练习成本高昂且效率低下。艾伦人工智能研究院的团队决定彻底颠覆这种思路。他们的核心想法很简单却很大胆如果模拟环境足够丰富、足够多样化机器人是否可以完全在虚拟世界中学会所有技能然后直接在现实世界中应用完全不需要任何真实世界的调试为了验证这个想法研究团队开发了一个名为MolmoBot-Engine的完全开源数据生成系统。这个系统就像是一个无限创造力的虚拟世界工厂能够程序化地生成各种各样的机器人训练场景。他们利用这个系统创建了MolmoBot-Data数据集包含180万个专家轨迹涵盖了抓取、搬运和关节物体操作等多种任务。这些数据全部来自模拟环境没有一丝一毫的真实世界数据。基于这个庞大的模拟数据集研究团队训练了三种不同的机器人策略。第一种是MolmoBot它建立在Molmo2多帧视觉语言模型基础上配备了流匹配动作头。第二种是MolmoBot-Pi0它完全复制了π0的架构设计目的是为了进行直接对比。第三种是MolmoBot-SPOC这是一个轻量级策略适合在边缘设备部署同时也便于后续的强化学习微调。研究团队在两个不同的机器人平台上进行了验证Franka FR3用于桌面操作任务Rainbow Robotics RB-Y1移动机械臂用于开门、抽屉操作、柜子交互以及移动拾取放置等更复杂的任务。评估结果令人震撼在完全没有任何真实世界微调的情况下这些策略成功实现了对未见过物体和环境的零调试迁移。具体来说在桌面拾取放置任务上MolmoBot在4个不同设置的真实世界评估中达到了79.2%的成功率而作为对比的π0.5仅达到39.2%。这个结果打破了人们的常规认知证明了大规模多样化的模拟数据确实可以产生在真实世界中广泛泛化的强健操作策略。一、虚拟世界的机器人训练营MolmoBot-Engine系统详解要理解这项研究的核心我们需要深入了解MolmoBot-Engine这个虚拟训练营是如何工作的。传统的机器人训练就像是在真实厨房里学做菜每次失败都要重新准备食材成本昂贵且效率低下。而MolmoBot-Engine则像是一个无限重置的虚拟厨房机器人可以在其中反复练习各种烹饪技巧不用担心浪费食材或造成损失。这个虚拟训练营建立在MolmoSpaces生态系统之上这是一个包含232,000个环境的庞大虚拟世界集合其中有48,000个可操作物体涵盖8种不同类型的任务。研究团队在此基础上程序化地生成机器人轨迹处理各种操作任务包括需要全身协调的开门任务。环境构建的过程就像是一个智能的电影布景师在工作。系统首先从预建的MolmoSpaces场景中选择一个作为基础这些场景包含了真实的建筑变化、房间布局和物体摆放。接下来系统会根据特定任务需求对每个场景进行定制化改造比如在需要拾取放置任务的场景中合理摆放目标物体、接收容器或仅仅是干扰物。物体资源的选择也经过了精心设计。对于拾取放置任务研究团队从iTHOR和Objaverse两个数据库中筛选出合适尺寸的刚性物体。筛选标准很实用放置接收器的边界框在x和y轴上不超过50厘米垂直尺寸不超过15厘米拾取物体在xy平面的对角线长度要小于接收器的相应尺寸。这样的设计确保了任务的可行性和合理性。系统最令人印象深刻的特点是其全面的随机化能力这就像是一个永不重复的变戏法大师。环境随机化涵盖了三个主要方面环境本身的随机化、动作随机化和摄像头扰动。在环境随机化方面系统会调整所有MuJoCo支持的视觉和物理参数。光照系统的变化就像是一个专业摄影师在不断调整拍摄条件。系统会随机设置光源数量从1到N个调整光源位置、强度、颜色和阴影属性。既有点光源也有方向光源模拟各种室内照明条件的多样性。纹理系统则像是一个室内设计师在不断更换装修风格。系统会随机化已放置物体的表面材质在支持的场景元素上也会进行相应调整。纹理来源包括程序化纹理和从AI2THOR资产中获取的真实世界纹理贴图。物理动力学的随机化确保了机器人策略的强健性。系统会在合理范围内随机采样摩擦系数、物体质量和关节阻尼等参数这样训练出来的策略就能应对真实世界中物理属性的不确定性。姿态随机化是另一个重要环节。可操作物体会在环境中以随机的六自由度姿态放置但必须满足碰撞约束和机器人工作空间的可达性要求。通过采样相对于机器人基座的物体方向系统确保了机器人能从多样化的接近角度学习操作技能。二、两个学徒机器人的不同学习之路研究团队选择了两个不同特色的机器人平台进行训练和测试这就像是培养两个擅长不同技能的学徒。第一个是Franka FR3这是一个7自由度的机械臂配备Robotiq 2F-85平行爪夹持器安装在固定的0.58米高台座上。研究团队采用了DROID配置来确保能与DROID训练的基线模型进行直接比较。这个机器人就像是一个专注于精细桌面工作的工匠数据生成和评估都以15赫兹的频率运行。第二个是Rainbow RB-Y1这是一个功能更加全面的移动机械臂。它拥有全向移动底座3自由度x、y、θ、6自由度躯干、2自由度头部水平和俯仰以及两个7自由度手臂每个手臂都配备机械耦合的平行爪夹持器。这个机器人就像是一个能够在整个房间中自由移动并执行复杂任务的全能助手。底座采用平面关节位置控制模式头部在初始化时设置为被动状态在执行过程中不进行驱动。为了增强训练数据的丰富性系统在每次训练开始时都会对关节配置进行初始随机化。这个过程就像是让机器人每次都从一个略微不同的起始姿势开始学习。具体做法是将每个运动组的关节位置设为标准起始配置加上一个小的随机扰动扰动的大小根据关节的位置进行分级设置。对于Franka机械臂近端关节接受较小的扰动远端关节接受较大的扰动。具体的扰动幅度为[0.025, 0.05, 0.075, 0.1, 0.125, 0.15, 0.175]弧度。这种设计基于雅可比权重启发式方法确保工具中心点的位移不超过10厘米。RB-Y1的每个手臂使用类似的扰动模式[0.05, 0.05, 0.075, 0.1, 0.125, 0.15, 0.175]弧度同时还会随机化头部的水平和俯仰角度±0.2弧度约±11.4度以及夹持器开合度±0.01弧度。动作噪声注入是另一个提高策略强健性的重要技术。在数据收集过程中系统会向专家动作中注入噪声防止策略过度拟合精确的动作重现。这种噪声是与动作成比例的静止命令不会接受噪声而大幅运动会接受相应更多的噪声。对于手臂运动组噪声在工具中心点空间中应用然后通过雅可比伪逆映射回关节空间。系统首先从雅可比矩阵和关节空间命令计算工具中心点位移然后从截断高斯分布中采样位置噪声标准差为α倍的位移幅度α 0.1并限制在±2厘米范围内。旋转噪声的标准差为位置噪声标准差的0.1倍限制在±0.1弧度约5.7度范围内。夹持器的处理方式也经过了精心设计。夹持器关闭和打开命令分别在0.5秒和0.25秒的固定时间内执行随后有一个稳定期在此期间手臂保持静止不动。这种设计模拟了真实世界中夹持稳定的时间确保物体在后续手臂运动恢复之前被稳定抓取。三、机器人的眼睛多样化的视觉感知系统机器人要在复杂环境中成功操作就必须拥有敏锐的眼睛。研究团队为两个机器人平台设计了不同但都很强大的摄像头系统这就像是为不同职业的工人配备了适合其工作需求的视觉设备。Franka FR3配备了五个摄像头提供了桌面操作的多角度视野。手腕摄像头就像是机器人的第一人称视角类似于ZED Mini摄像头垂直视场角为52度带有±4度的噪声。这个摄像头的位置会受到随机扰动横向±1.5厘米、垂直±0.5厘米、深度±2厘米方向上滚转角±8度、俯仰角和偏航角各±4度。固定肩部摄像头提供了机器人安装的外部视角位置相对于机器人底座固定视场角为71度并有轻微的随机化位置±5厘米、方向±8度。摄像头位置的约束确保任务物体始终可见。三个随机放置的外部摄像头则提供了工作空间周围的自由视角。其中两个类似ZED2摄像头视场角64-72度一个类似GoPro摄像头视场角137-140度。系统会为每个摄像头采样距离ZED2为0.2-0.8米GoPro为0.2-0.5米、高度工作空间上方0.05-0.6米和方位角完整360度。观察目标是工作空间中心带有±10厘米的噪声。如果任务物体和夹持器不可见系统会拒绝当前位置并重新采样最多20次尝试。所有FR3摄像头都以624×352的分辨率渲染这个尺寸选择接近真实世界的640×360分辨率同时确保两个维度都是16的倍数便于视频编码。RB-Y1的摄像头系统匹配真实机器人的传感器配置。头部摄像头类似于宽模式下的GoPro以1024×576分辨率渲染后处理中裁剪为768×5764:3宽高比。垂直视场角为139度带有±3度噪声。位置扰动为每个轴±1厘米方向扰动为每个轴±4度训练期间还会应用每帧随机的鱼眼变形。左右手腕摄像头类似Intel RealSense D405传感器以1024×57616:9宽高比分辨率渲染垂直视场角58度带有±4度视场角噪声。位置噪声为横向±1.5厘米、垂直±0.5厘米、深度±1厘米方向噪声为滚转角±8度、俯仰角和偏航角各±4度。系统会记录深度信息以备将来数据集使用但训练期间不使用。除了视觉观察系统还记录丰富的本体感觉状态和辅助信息。机器人状态包括关节位置和速度、每个夹持器的工具中心点姿态以及机器人底座姿态。动作标签以多种表示形式记录命令关节位置绝对值和相对于当前关节位置、相对于当前姿态的末端执行器扭矩以及绝对末端执行器姿态。这种设计使得同一轨迹能够用于不同动作参数化的训练。任务状态信息包括物体起始和目标姿态、抓取状态指示器、策略阶段和专家策略的重试计数。摄像头参数记录了每个摄像头的内参和外参支持2D和3D坐标之间的投影以及潜在的基于深度的增强。系统还在所有摄像头的图像帧中记录感兴趣物体的点位置。四、机器人的任务清单从简单到复杂的技能体系研究团队为机器人设计了一套从基础到高级的任务体系就像是为学徒制定的技能培训大纲。这些任务既包括基础的刚性物体操作也包括更具挑战性的关节物体操作。刚性物体操作包含四个核心任务每个都在静止的Franka FR3和移动的RB-Y1机械臂上进行评估。Pick任务要求机器人抓取目标物体并将其提升到起始高度之上成功标准是物体不再被任何非机器人表面支撑且被提升至少1厘米。这个任务就像是测试机器人是否掌握了拿起东西这个最基础的技能。Pick-and-place任务要求将目标物体运输到指定的接收器中成功标准是至少50%的物体重量由接收器支撑且接收器没有被移动超过10厘米或旋转超过45度。这个任务类似于要求机器人把A放到B里面是日常生活中最常见的操作需求。Pick-and-place-next-to任务要求将目标物体放置在同一表面上参考物体的旁边。成功要求是XY平面上表面到表面的距离在0到25厘米之间且参考物体保持在初始位置的15厘米范围内。这个任务考验机器人的空间理解能力。Pick-and-place-color任务要求将物体放置在由颜色标识的接收器上例如放在红色盘子上。场景中会放置两个除颜色外完全相同的接收器成功标准与pick-and-place相同。这个任务测试机器人是否能够理解语言指令中的颜色描述。关节物体操作任务在移动RB-Y1上进行评估包含两个主要类型。Open任务要求打开附近的关节物体如柜子、抽屉、烤箱、洗碗机至其关节范围的至少15%。Open-door任务专门针对铰链门要求打开到铰链关节范围的至少67%。指令会根据机器人相对于门的起始姿态进行条件化生成推门打开或拉门打开的具体指令。语言指令的设计也很巧妙。训练期间每个任务都配有自然语言指令其中的指代表达在训练开始时采样而非固定。对于指令中引用的每个物体系统会计算候选指代表达与场景中所有干扰物体之间基于CLIP的相似性分数然后通过相似性边际分数上的softmax分布温度τ0.02采样表达。这种方法产生多样而明确的表达例如根据上下文陶瓷杯vs杯子。相似性边际低于0.03或绝对目标相似性低于0.1的表达会被过滤掉以避免模糊指代。五、机器人的大脑训练三种不同的学习策略研究团队开发了三种不同的机器人策略就像是培养了三个各有特色的机器人学生。每个策略都有其独特的优势和适用场景。MolmoBot是这个家族的明星学生建立在Molmo2-4B视觉语言模型基础上。这个模型的架构包含三个主要组件首先是处理来自输入摄像头视图RGB观察的视觉编码器其次是联合编码视觉特征和任务指令的语言模型最后是基于DiT的流匹配动作头用于预测机器人动作。视觉编码器使用SigLIP2对视觉观察进行编码并投影到语言模型的嵌入空间中。研究团队在训练期间冻结视觉编码器和投影器权重只训练动作头和语言模型。MolmoBot可以处理每个视图最多3帧的输入每个图像被独立编码然后使用多头注意力层将每个2×2补丁窗口的图像标记池化为单个向量其中补丁的均值作为查询。每个图像用192个标记编码。语言模型将视觉标记与编码图像索引和视图索引的文本标记交错输入同时处理分词化的语言指令。对于需要空间定位的任务系统可以选择性地基于指定目标物体或放置位置的2D点坐标进行条件化这些坐标作为特殊标记注入指令流中。训练和推理期间视觉标记使用双向注意力文本标记使用因果注意力。动作头是一个DiT模型包含自注意力和交叉注意力层通过交叉注意力关注Molmo2主干的特征。按照flow matching在动作预测中的最新工作DiT在连续时间步嵌入t ∈ [0, 1]的条件下迭代去噪动作块。时间步嵌入被每个DiT块用于通过自适应层归一化调制嵌入。MolmoBot的动作头与LLM编码器具有相同的层数每个动作层都对输入序列包括视觉和语言编码的相应LLM层的隐藏状态进行交叉注意。由于LLM和DiT具有不同的隐藏维度LLM的隐藏状态被投影到DiT的隐藏维度。系统还通过单层MLP编码机器人状态并在每层进入交叉注意力之前将其连接到VLM序列的末尾。动作表示使用关节空间的两种表示绝对关节位置和关节位置增量。两者都是表示每个关节目标配置的连续值。每个时间步策略预测所有驱动关节的目标包括夹持器。对于RB-Y1的移动底座还会预测基座速度命令线性和角速度这些命令与关节动作连接。关节空间控制避免了执行时逆运动学的计算开销和潜在奇异性。训练过程采用行为克隆目标。单帧训练使用1024的批大小静态操作任务训练200K步移动操作任务训练100K步。学习率为1×10^-5LLM使用2K步预热动作头使用200步预热。从专家执行中采样训练样本时系统会对重试抓取行为、成功拾取和任务完成行为进行上采样倍数分别为3倍、2倍和2倍。这样做的目的是改善模型的抓取行为并避免在任务完成后拾取物体。MolmoBot-Pi0是为了隔离MolmoBot-Data对真实世界VLA性能影响而设计的对照模型。它与π0具有完全相同的架构完全在研究团队的合成数据上从初始Paligemma权重开始训练。这种设计可以进行头对头比较控制建模或架构变化的影响。MolmoBot-Pi0使用带有流匹配动作专家的Paligemma 3B VLM所有建模代码都使用openpi代码库确保与π0的等价性。训练协议为200K步批大小1024学习率5×10^-5预热1K步。为了防止过度拟合模拟渲染伪影系统冻结整个SigLIP视觉编码器。机器人动作以绝对关节位置进行监督。MolmoBot-SPOC是一个轻量级的transformer策略灵感来自于在导航任务中取得成功的SPOC架构。这个模型适合边缘部署和未来的强化学习微调。视觉观察使用SigLIP2-Base patch 16/256图像编码器进行编码保留完整的补丁标记集。语言目标指令使用SigLIP文本编码器单独编码。机器人当前关节状态通过学习的线性投影投射到模型的标记维度。这些标记沿序列维度连接形成动作解码器的交叉注意力记忆。对于提供空间目标规范的任务MolmoBot-SPOC可以选择性地将基于点的目标编码纳入交叉注意力记忆中。根据任务提供一个或两个2D像素坐标pick、open和door-open任务使用单个归一化图像坐标(x, y)pick-and-place任务使用两个坐标(x1, y1, x2, y2)。每个坐标首先通过正弦位置编码器然后使用线性层投影到模型的标记维度。动作表示和量化分箱是MolmoBot-SPOC的一个独特特征。它将动作预测表述为离散分类问题使用量化分箱策略将连续动作值分词化。分箱前动作使用训练分布的第1和第99百分位数进行归一化基于经验分位数将值重新缩放并裁剪到[-1, 1]范围。然后将每个维度的归一化动作空间分为256个箱箱边界对应于数据的等间隔分位数。这产生了数据自适应的箱这些箱近似均匀填充产生了连续动作空间的良好校准离散表示。六、机器人的技能考试真实世界中的惊人表现当虚拟训练的机器人策略第一次踏入真实世界时就像是经过多年模拟驾驶训练的学员第一次上路实际驾驶。研究团队设计了严格的测试结果令整个机器人学界震撼。静态操作评估在三个不同的物理DROID平台上进行覆盖两个地理位置和机构的四个真实世界环境。每个环境中研究团队对每个策略评估10个拾取放置任务每个任务进行3次试验总计每个策略评估120次。测试环境的多样性确保了评估的全面性。厨房环境包含4个物体杯子、鼠标、苹果、香蕉和2个接收器棕色碗、黑色碗。接收器分别放置在机器人的左右两侧物体要么放置在碗之间的容易位置要么放置在远离工作空间中心、更靠近错误碗的困难位置。工作室环境包含5个物体胶带、木勺、计时器、铜杯、蓝杯和2个接收器托盘、盒子位于工作空间左侧。每个物体必须放入每个接收器总共10个任务。评估杯子或计时器时这些物体一起放在工作空间中间的桌子上评估胶带或勺子时它们与一个额外的叉勺干扰物一起放在工作空间中间。卧室环境包含4个物体药瓶、滚筒、香蕉、网球和2个接收器毛巾、篮子。每个物体放入每个接收器形成8个任务最后2个任务要求策略将香蕉放入每个接收器但工作空间较为杂乱。这个环境特别之处在于不以桌子作为支撑面而是使用床测试对环境多样性的强健性。办公室环境具有8个物体刀、香蕉、马克笔、剪刀、胡萝卜、螺丝刀、鼠标、杯子和7个接收器砧板、盘子、杯子、绿碗、蓝碗、篮子、盒子具有多种物体配置包含不同程度的杂乱和干扰物。这个环境的评估在完全不同的机构和地理位置进行展示了MolmoBot策略在全新设置中快速部署的能力。结果令人震撼。MolmoBot策略在真实世界静态操作评估中表现出强大的零调试sim2real迁移能力。MolmoBot和MolmoBot-Img显著优于π0.5-DROID而MolmoBot-Pi0具有竞争力这些都没有受益于π0.5-DROID的架构改进。所有MolmoBot策略都比π0表现得更好。关键的发现是尽管架构相同MolmoBot-Pi0显著优于π0。这种性能差异只能用数据来解释强烈暗示模拟演示数据的多样性足以在相当或更好的水平上提供与相当数量真实世界数据相同的性能而真实世界数据的多样性受到真实世界成本和实用性的限制。移动操作评估同样令人印象深刻。研究团队在三个真实世界环境中评估MolmoBot Door Specialist策略的开门任务每个环境都具有不同的拉门具有不同的视觉纹理、把手配置和周围场景上下文。与推门不同拉门要求机器人精确抓取把手并施加拉力使任务显著更具挑战性——机器人不能依靠接触丰富的恢复策略或简单地驱动进入门来产生运动。在9次试验中研究团队观察到4次把手抓取成功和2次开门成功。门1和门3的反复失败源是抓取把手的困难。这两扇门的把手都位于门的右侧这种配置在典型的门交互数据集和训练数据中代表性不足这可能解释了策略在这些情况下抓取可靠性的降低。相比之下门2的把手配置更常见在所有三次试验中都看到了成功的抓取。七、数据规模效应的深度剖析通过系统性的数据消融实验研究团队揭示了一些既在意料之中又令人惊讶的发现。这些发现就像是解开了机器人学习的成功密码。在数据规模方面结果完全符合预期。随着训练演示数量的增加机器人在模拟和真实环境中的pick任务性能都稳步提升。研究团队固定了5000个环境和12400个物体类别变化训练演示数量为10K、25K和50K。无论是在模拟的Pick-Classic任务中还是在真实世界的DROID评估中性能都随演示数量单调增长。然而环境多样性的影响出乎意料。研究团队固定50K轨迹的数据规模对比了来自更少房屋的更多演示与分布在更多房屋的更少演示的效果。出人意料的是增加独特训练环境的数量对下游性能几乎没有影响。这表明对于pick任务而言性能更多由交互数据的总量驱动而不是环境多样性的扩展。这个发现的深层含义很有趣pick任务的本质是局部性的主要关注机器人与直接物体的交互而不是对更广泛场景上下文的理解。因此背景多样性对于这类任务来说并不是性能提升的关键因素。物体多样性的影响更加复杂。研究团队使用固定的50K轨迹从5到100个物体进行采样。仿真评估中的性能按预期随着物体多样性的增加而提升。然而DROID评估中的性能相对于物体多样性没有明确趋势。研究团队假设超出小数量的物体数量对DROID性能的改善不大因为评估中的物体数量有限且在语义上很常见如苹果和杯子。模型消融实验揭示了训练技术的重要性。在训练期间采样多个时间步进行并行去噪的技术显著改善了模型收敛和最终性能。研究团队对T ∈ {1, 2, 4, 8}进行了消融发现仿真基准的性能随T增加而提升在T8时达到峰值。然而30个样本的真实子集结果不那么明确性能在T4时达到峰值。动作表示的选择对真实世界性能产生了显著影响。研究团队比较了使用绝对和增量表示训练的MolmoBot-Img每个在完整多任务数据混合上训练200K步。在Franka FR3任务中绝对策略在真实设置中显著优于增量策略而仿真结果对两种策略来说都相当。真实环境中3个基准测试的显著差距强烈表明绝对关节策略模型在真实世界任务中迁移更好。这些发现为机器人学习领域提供了重要指导。数据规模的重要性再次得到确认但环境多样性的意外低重要性提醒我们并非所有类型的多样性都同等重要。对于特定任务理解哪些多样性维度真正重要可以让我们更高效地分配计算和数据收集资源。八、技术架构的深层解析MolmoBot系列模型的成功不仅仅来自于庞大的数据规模更源于其精心设计的技术架构。这些架构选择就像是建造房屋时的关键设计决策每一个都对最终性能产生深远影响。多帧处理能力是MolmoBot的一个重要特征。研究团队训练了两个多帧版本MolmoBotF2和MolmoBotF3分别处理2帧和3帧输入。多帧训练过程从单帧模型MolmoBot-Img的权重开始初始化然后训练50K步保持其他训练细节不变。使用多帧时模型接收当前状态的帧以及采样自D步之前的帧实验中D8。实际上F3模型接收当前状态、约0.5秒前的状态和约1秒前的状态。这种时间信息的融合使得机器人能够更好地理解动态场景和物体运动趋势类似于人类在操作时会观察物体的运动轨迹来做出更好的预测。流匹配动作头的设计体现了最新的生成模型进展。与传统的回归方法不同流匹配方法将动作生成视为一个去噪过程从噪声分布开始通过多次迭代逐步细化出最终的动作序列。这种方法的优势在于能够生成更加平滑和连贯的动作轨迹。分层交叉注意力机制是MolmoBot架构的另一个创新点。动作头的每一层都与视觉-语言模型相应层的隐藏状态进行交叉注意力这创建了一个深度耦合的多模态表示。这种设计使得动作生成不仅基于最终的高级视觉语言特征还能利用不同抽象层次的多尺度信息。机器人状态的集成也经过精心设计。当前关节位置通过单层MLP编码后被添加到每层交叉注意力的视觉语言序列末尾。这确保了动作预测不仅考虑视觉和语言信息还充分利用机器人的本体感觉反馈。对于MolmoBot-SPOC的量化分箱策略研究团队采用了数据自适应的方法。传统的均匀分箱可能导致某些箱包含大量数据点而其他箱几乎为空影响模型学习效果。通过使用分位数分箱每个箱包含近似相同数量的数据点产生了更加平衡的离散表示。这种离散化方法的优势不仅在于训练稳定性还在于它与现有的语言模型架构更加兼容。由于动作被表示为离散标记模型可以使用标准的交叉熵损失进行训练而不需要专门为连续值设计的损失函数。并行动作解码是另一个重要的架构选择。与自回归解码不同并行解码允许模型同时预测整个动作序列的所有时间步。这不仅提高了推理速度还避免了自回归解码中的误差累积问题。结论说到底这项研究最震撼人心的地方在于它彻底颠覆了我们对机器人学习的认知。过去整个机器人学界都认为仅靠模拟训练是不够的就像是认为仅仅看书学不会开车一样理所当然。然而艾伦人工智能研究院的这项工作告诉我们当虚拟训练足够丰富、足够多样化时机器人确实可以在完全没有真实世界经验的情况下直接在现实中完美工作。这种突破的意义远远超出了技术本身。在传统方法中每个机器人系统都需要大量昂贵的真实世界数据收集这就像是每个学生都必须在真实考场中反复练习才能掌握考试技巧。而MolmoBot的成功证明了一个设计精良的虚拟考场可以让学生掌握所有必要技能然后直接在真实考试中取得优异成绩。从数据的角度来看180万个模拟轨迹的训练规模虽然庞大但相比于收集等量真实世界数据的成本这种方法的效率提升是革命性的。研究团队使用100个NVIDIA A100 GPU能够以每GPU小时1024个训练片段的速度生成数据相当于每小时产生超过130小时的机器人经验。与需要人类示范员的真实世界数据收集相比这种方法的数据生成速度提高了近4倍。更重要的是这种方法的开源特性打破了机器人基础模型被少数资源雄厚的工业实验室垄断的局面。通过公开MolmoBot-Engine和完整的训练数据研究团队为整个学术界和开发社区提供了一个可复制、可扩展的研究基础。这意味着更多的研究者可以在此基础上探索新的任务、新的机器人平台和新的操作技能。从技术贡献来看这项工作不仅仅是数据规模的胜利更是系统工程的杰作。MolmoBot-Engine的设计体现了对机器人学习本质的深刻理解成功的关键不在于模拟的逼真度而在于训练场景的多样性。通过程序化生成94,300个不同环境、11,000多个独特物体和9,000多个接收器系统创造了一个比任何真实世界数据集都更加丰富的学习环境。三种不同架构策略的设计也很有前瞻性。MolmoBot展示了视觉语言模型在机器人控制中的潜力MolmoBot-Pi0提供了公平比较的基准而MolmoBot-SPOC则为边缘部署和强化学习微调开辟了道路。这种多样化的策略组合确保了研究成果的广泛适用性。当然这项工作也有其局限性。当前的研究主要关注刚性物体和关节物体的操作对于需要精细接触控制的任务如插入、孔销配合、可变形物体布料、绳索、食物或需要准确流体和颗粒动力学的任务仍然是开放挑战。研究团队也诚实地承认MolmoBot-Engine本质上受到模拟平台能力的约束。然而这些限制并不削弱这项工作的重要性。随着物理仿真和生成式世界模型的进步研究团队提出的大规模程序化生成方法有望扩展到更具挑战性的任务中。这为需要接触丰富灵巧性和可变形物体处理的任务开辟了令人兴奋的研究前沿。最终这项研究为机器人学习领域树立了一个新的标杆。它告诉我们通过精心设计的数据生成管道和充分的多样性模拟训练不仅可以与真实世界训练相提并论甚至可能在某些方面超越后者。这种范式转换不仅会加速机器人技能的开发速度还会大大降低进入门槛让更多研究者和开发者能够参与到通用机器人系统的构建中来。归根结底MolmoBot的成功证明了一个简单而深刻的道理当虚拟世界足够丰富多彩时它就能成为现实世界最好的老师。这不仅是技术的胜利更是对开放科学理念的有力践行。通过开源所有组件艾伦人工智能研究院为整个机器人学界提供了一份珍贵的礼物这份礼物将持续推动通用机器人技术向前发展。QAQ1MolmoBot-Engine是什么系统AMolmoBot-Engine是艾伦人工智能研究院开发的完全开源机器人数据生成系统。它能程序化地创建各种机器人训练场景生成了包含180万个专家轨迹的MolmoBot-Data数据集覆盖94,300个不同环境和11,000多个独特物体。Q2MolmoBot机器人策略能在真实世界直接工作吗A是的完全可以。MolmoBot策略仅通过模拟数据训练无需任何真实世界微调就能在现实环境中工作。在桌面拾取放置任务中MolmoBot达到79.2%的成功率显著超过需要真实数据训练的π0.5系统的39.2%成功率。Q3普通研究者能使用MolmoBot技术吗A完全可以。研究团队开源了MolmoBot-Engine系统和完整的训练数据任何研究者都可以免费获取和使用。这打破了之前机器人基础模型被少数大型实验室垄断的局面让更多人能参与机器人技术开发。