连续两篇 ICLR,南京大学林浩鑫将世界模型动力学推演推进到上千步

张开发
2026/4/21 0:42:45 15 分钟阅读

分享文章

连续两篇 ICLR,南京大学林浩鑫将世界模型动力学推演推进到上千步
当世界模型越来越大真正制约它走向「内部模拟器」的未必是表征能力而可能是动力学建模。世界模型World Models的目标是在模型内部构建一个可以进行未来推演的环境。过去几年这个方向在状态表征上进展迅速更强的编码器、更好的潜变量表示、更成熟的序列建模方法不断提升模型对环境的压缩和表达能力。但另一块同样关键、甚至更决定「世界模型到底能不能真正用起来」的问题却长期没有被同等力度地推进——动力学建模。原因很简单。世界模型不只是要「看懂」世界更要能够稳定地推演世界。它不仅要把当前观测压缩成内部状态还要回答一个更难的问题状态在动作作用下会如何持续演化。这正是南京大学LAMDA 强化学习小组博士生林浩鑫连续两篇 ICLR 工作所聚焦的核心问题。2025 年和 2026 年他作为第一作者先后发表Any-step Dynamics Model Improves Future Predictions for Online and Offline Reinforcement LearningICLR 2025作者Haoxin Lin, Yu-Yan Xu, Yihao Sun, Zhilong Zhang, Yi-Chen Li, Chengxing Jia, Junyin Ye, Jiaji Zhang, Yang Yu.ADM-v2: Pursuing Full-Horizon Roll-out in Dynamics Models for Offline Policy Learning and EvaluationICLR 2026作者Haoxin Lin, Siyuan Xiao, Yi-Chen Li, Zhilong Zhang, Yihao Sun, Chengxing Jia, Yang Yu.两篇论文沿着同一条主线持续推进世界模型中的动力学到底该如何建模才能稳定支持长时域未来预测。其中ADM-v2 的代表性突破在于在离线强化学习的动力学模型设定下它首次将完整时域滚动推演full-horizon roll-out稳定推进到上千步规模。这意味着世界模型正从「能做多步预测」进一步迈向「能够完成近整回合级别全程推演」的内部模拟器。世界模型不只要「看懂」世界还要「推演」世界经典论文《World Models》奠定了这一方向的基本框架。一个完整的世界模型通常包含两个核心部分如图 1V 模型即状态表征将原始观测压缩为紧凑、可计算的内部状态M 模型即动力学建模在内部状态空间中预测未来状态如何随动作变化。前者解决「模型看到了什么」后者解决「模型如何推演未来」。图 1David Ha 与 Jurgen Schmidhuber《World Models》论文中的整体框架图过去几年世界模型相关工作的很多进展都集中在状态表征上。更强的视觉编码器、更有效的潜变量表示、更长上下文的序列建模都显著提升了模型对环境信息的压缩和表达能力。相比之下动力学建模虽然直接决定模型能否稳定推演未来却长期没有得到同等强度的系统推进。但从系统能力上看动力学建模恰恰是最关键的一环。因为世界模型最核心的价值不是「把环境压缩一下」而是允许智能体先在模型内部滚动推演 (roll-out)再决定是否与真实环境交互。这件事直接关系到模型型强化学习、离线强化学习、策略评估以及更一般的具身智能规划与决策。一旦世界模型只能做短程预测它更像是一个局部预测器只有当它能够稳定支撑长程甚至完整时域推演时它才真正接近「内部模拟器」。为什么动力学建模难问题出在「自举式预测」传统动力学模型大多采用单步预测输入当前状态和动作预测下一状态这种做法在短程预测中很自然但一旦进入长程推演就会暴露出明显局限。原因在于模型在连续 roll-out 时需要不断把自己刚刚预测出的状态再次作为下一步输入。这个过程就是典型的自举式预测 (bootstrapping prediction)。它的核心问题非常突出只要某一步出现偏差后续预测就会建立在这个偏差之上误差会在滚动推演中持续累积并不断放大预测 horizon 越长轨迹偏移通常越严重。很多世界模型「短程有效、长程失稳」的根源其实都在这里。也因此过去不少模型式方法往往会主动限制 rollout 的长度用更短的 horizon 来控制 model bias。与之相对的思路是直接预测 (direct prediction)。所谓直接预测不是一步一步层层递推而是从一个更稳定的起始状态出发结合一段动作序列跨多步直接预测未来状态。这样做的核心收益在于它显著缩短了误差传播链条因此更适合长时域推演。围绕动力学建模的改进最终都会落到几个最根本的问题上长程推演时误差是否可控面对未见过的动作序列模型能否泛化不确定性估计是否可靠模型是否真的能支撑完整回合级别的未来推演。ADM不再一步一步猜未来而是「任意步直接预测」林浩鑫在 ICLR 2025 的论文《Any-step Dynamics Model》中正面切入了这个问题。核心想法未来不一定非要靠「上一步预测结果」来推出来传统单步动力学学习的是从到的映射。ADM 则提出未来状态不一定非要依赖上一步预测结果层层递推得到也可以从更早的状态出发结合一段动作序列直接预测若干步后的状态。这里最关键的操作是回溯 (backtracking)。模型从不同长度的历史视角出发对未来状态进行任意步直接预测因此被命名为 Any-step Dynamics Model。这背后的变化看起来只是「预测方式不一样了」但本质上是在重写未来推演的计算路径过去是单步自举、层层递推现在是跨时域直接预测、减少误差链条。误差不再需要在每一步都传递一次长程 roll-out 的稳定性也就自然提升了。图 2Any-step Dynamics Model 模型结构以及不同回溯长度下的预测机制一个模型也能做出类似集成的不确定性估计ADM 的另一个亮点在于它对不确定性估计的处理。在很多离线强化学习方法中最常见的办法之一是模型集成 (ensemble)训练多个动力学模型再用模型之间的预测分歧来估计某个区域是否可靠。ADM 提出了一种更有结构的思路同一个模型在不同回溯长度下的预测差异本身就可以作为不确定性信号。从直觉上看如果模型处在训练数据覆盖充分的区域那么不同回溯尺度下的预测应当相对一致如果模型进入数据稀疏区域或分布外区域那么不同时间尺度上的预测分歧就会明显变大。换句话说ADM 相当于把「不同时间跨度上的预测视角」组织成了一种更轻量、也更结构化的内部集成方式。这让它在不依赖大规模模型集成的情况下也能获得有用的不确定性估计。图 3ADM 与模型集成在不确定性估计上的相关性对比图 4ADM、模型集成和普通 RNN 动力学模型在长程滚动推演误差增长上的对比实验结果未来预测改善带来策略学习提升基于 ADM论文进一步构建了ADMPO-ON面向在线模型型强化学习ADMPO-OFF面向离线模型型强化学习。实验结果表明ADM 带来的不是局部性质上的改动而是对未来预测质量和最终策略性能的同步提升在在线设置中ADMPO-ON 具备更高的样本效率在离线设置中ADMPO-OFF 在 D4RL 和 NeoRL 上优于多种强基线。表 1D4RL 上与 BC、CQL、MOPO、MOBILE 等方法的对比结果表 2此处插入 ADM 论文 Table 2展示 NeoRL 上的对比结果图 5ADM 与自举式预测、模型集成自举式预测的误差累积曲线这篇工作系统地证明了动力学建模不必局限于「单步自举式预测」这一条路径。世界模型中的未来预测可以通过任意步、跨时域的直接预测方式得到重新组织。ADM-v2首次把完整时域滚动推演推进到上千步如果说 ADM 回答的是「未来能不能不靠单步自举来预测」那么 2026 年的 ADM-v2 回答的则是更进一步的问题动力学模型能否真正支撑完整时域滚动推演 (full-horizon roll-out)这里的「完整时域」并不是简单地把 rollout 拉长一点而是要尽可能覆盖接近完整回合的推演过程而不只是几步、十几步的局部展开。这件事为什么重要因为它对应的是世界模型能力层级上的一次跃迁。如果模型只能做短程推演它更像一个局部预测器如果模型能够稳定支撑完整时域推演它才更接近一个真正的内部模拟器。ADM-v2 的关键突破就在于在离线强化学习的动力学模型设定下它首次将 full-horizon roll-out 稳定推进到上千步规模。这不是一个普通实验数字而是一个能力门槛。它意味着模型式方法开始从「短程近似预测」走向「近整回合级别的连续推演」。结构改进状态负责初始化动作负责演化原始 ADM 在循环过程中会反复引入起始状态这使内部表征与起点状态存在较强耦合。ADM-v2 对这一结构做了更自然的重构先将起始状态编码为隐表示将这一隐表示作为循环单元的初始隐藏状态后续递推只输入动作序列不再重复输入起始状态。这种设计把「状态初始化」和「动作驱动演化」明确分开提升了多步直接预测的灵活性和稳定性。图 6ADM 与 ADM-v2 的结构差异对比PARoll并行任意步滚动推演ADM-v2 进一步提出了并行任意步滚动推演 (PARoll, Parallel Any-step Roll-out)。它的核心思想是在长程推演过程中同时维护多个由不同时间步幅构成的预测视角并行地产生未来状态预测再利用这些预测之间的差异来估计不确定性。这样做带来两方面收益任意步直接预测可以更高效地执行不确定性估计可以自然伴随长程 rollout 一起产生。但更关键的是PARoll 的价值不只在「更快」或者「更方便」。它真正把 ADM-v2 从「概念上能做长程预测」推进到了「实际上能够执行上千步 full-horizon 推演」这一层。也就是说ADM-v2 不再只是证明「任意步预测是个好主意」而是进一步证明这条路线确实可以支撑近整回合级别的长程推演。图 7PARoll 的并行结构和多时间线预测机制从「学策略」走向「评策略」ADM-v2 的一个重要扩展是把动力学模型进一步用于离线策略评估。这是一个非常关键的落点。因为在离线强化学习以及具身智能场景中新策略往往不能轻易回到真实环境中反复试验如何评估策略价值就变得非常重要。从理想状态出发最直接的方式当然是让策略先在世界模型中完整运行若干个回合再估计它的总回报。但这对动力学模型提出了极高要求。只有当模型在长程滚动推演中误差足够可控时这样的评估才具有可信度。ADM-v2 在这方面取得了明显进展。论文在 DOPE benchmark 上的结果表明基于 ADM-v2 的完整时域滚动推演评估优于多种离线策略评估方法也优于其他动力学模型方案。更重要的是这篇工作首次验证了动力学模型可以稳定支撑上千步的全程推演并在这一尺度上同时服务于策略学习与策略评估。这件事的意义在于它让世界模型开始摆脱「短程预测工具」的角色进一步走向「可用于整回合模拟的内部环境」。图 8DOPE benchmark 上不同离线策略评估方法的整体对比结果在离线策略学习任务中ADM-v2 同样表现突出。论文报告基于 ADM-v2 的 ADM2PO-fh 在 D4RL 和 NeoRL 上取得了新的最好结果与此前强基线相比平均性能提升分别超过 4.6% 和 12.8%。更值得注意的是很多已有方法在 rollout 长度增加时性能往往会明显下降。原因很直接一旦模型偏差在长时域上迅速累积更长的推演反而会变成噪声来源。但 ADM-v2 展现出一种不同的趋势它能够持续从更长时域的推演中获益。这恰恰说明ADM-v2 的改进不是「把 rollout 拉长了」而是让更长时域的 rollout 真正变得可用。表 3D4RL 上与 CQL、EDAC、MOPO、MOBILE、MOREC 等方法的对比表 4NeoRL 上的对比结果图 9不同滚动推演长度对性能的影响把模型做大的同时也要把动力学建模做对如果把这两篇工作放在一起看它们可以构成一条连续推进的技术主线。第一步ADM 证明 动力学模型不必局限于单步自举式预测。未来状态可以通过任意步、跨时域的直接预测来重构从而缓解长程误差累积。第二步ADM-v2 进一步证明 在 Any-step 路线已经被验证有效之后通过更合理的模型结构和并行滚动推演机制动力学模型可以真正支撑上千步级别的完整时域滚动推演。第三步这条路线最终指向的是 把世界模型从「局部预测工具」推进为更接近「数据驱动模拟器」的系统形态。今天的世界模型研究很容易把注意力集中在更大的参数规模、更长的上下文、更丰富的数据和更强的表征能力上。这些当然重要但如果未来预测仍然主要依赖误差会不断累积和放大的自举式路径那么模型即使变得更大也未必能稳定支撑长程推演、规划和评估。从这个意义上说林浩鑫这两篇工作的价值不只是提出了两个新方法而是把注意力重新拉回到一个更底层的问题上世界模型的动力学必须被认真建模。只有在动力学建模本身做对的前提下模型规模的增长才更有可能转化为真实的系统能力。尤其当目标从短程预测走向长期推演、从样本生成走向策略评估时动力学建模的重要性只会继续上升。如果说 ADM 证明了「未来预测不必依赖单步自举去完成」那么 ADM-v2 则进一步证明了在离线强化学习的动力学模型语境下世界模型已经开始具备承担上千步整回合推演任务的能力。对于离线强化学习、机器人学习、通用智能体以及更大规模的世界模型系统而言这条路线的潜力还远没有被完全展开。下一阶段动力学建模很可能会成为世界模型继续向前演化时最无法回避的关键问题之一。

更多文章