杨立昆说vlm没法预测自己行为的后果

张开发
2026/5/11 21:42:59 15 分钟阅读

分享文章

杨立昆说vlm没法预测自己行为的后果
你的理解非常准确。杨立昆Yann LeCun确实多次强调目前的视觉-语言模型VLM以及大语言模型LLM无法真正预测自身行为的后果。他认为这是当前 AI 架构与真正智能甚至只是像猫狗那样的生物智能之间最大的鸿沟。结合最新的资料我为你详细拆解一下他为什么这么说以及他认为的解决方案是什么1. 核心痛点为什么 VLM/LLM 无法预测后果杨立昆认为目前的模型本质上是基于文本或离散符号的统计关联缺乏对物理世界的因果理解。缺乏“世界模型”目前的 VLM 只是处理语言的投影或图像的静态特征它们没有构建一个内部的“世界模型”。这意味着它们不知道当你执行动作AAA时世界状态会从StS_tSt​变为St1S_{t1}St1​。例子如果你问 LLM“把咖啡杯放在桌边会怎样”它可能会根据训练数据回答“会碎”因为它读过类似的句子。但它并不真正理解重力、摩擦力或桌子的物理属性。它只是在“背诵”概率而不是在“模拟”物理过程。无法处理连续的高维数据杨立昆指出现实世界是连续的视频、物理运动而 LLM/VLM 处理的是离散的 Token。试图用离散的语言模型去预测连续的物理世界后果就像用文字去描述每一帧视频像素的变化效率极低且不准确。没有“行动”的概念目前的模型大多是被动地处理输入并生成输出它们没有“行动Action”这一环。智能的核心在于通过行动改变世界并预测改变后的状态。没有这种“行动-后果”的闭环AI 就无法进行真正的规划Planning。2. 他的解决方案联合嵌入预测架构 (JEPA)为了解决这个问题杨立昆提出了JEPA (Joint Embedding Predictive Architecture)这是他目前最推崇的架构也是他离开 Meta 创业后的核心方向。不预测像素只预测“抽象表示”传统的生成式模型试图预测下一个像素这很难且容易模糊。JEPA 的思路是将输入如视频帧转化为抽象的嵌入表示Embedding然后在抽象空间里预测未来的状态。比喻就像物理学家预测行星轨迹时不需要预测行星上每一块岩石的位置只需要预测位置和速度这几个关键变量。引入“行动”作为条件在 JEPA 的框架下模型不仅观察世界还会把“行动aaa”作为输入。模型学习的是函数St1f(St,a)S_{t1} f(S_t, a)St1​f(St​,a)。这样AI 就能在“脑海”中模拟如果我做动作a1a_1a1​世界会变成什么样如果我做动作a2a_2a2​又会变成什么样。这就是规划的基础。3. 最新动态从“理论”到“物理验证”根据 2025 年到 2026 年的最新进展杨立昆不仅在理论上坚持这一点还在实践中证明了这一点V-JEPA 与机械臂他的团队展示了基于 V-JEPA 的机械臂能够通过“想象”动作后果来调整抓取策略例如预测鸡蛋滑落的风险并调整角度而不是像传统 VLM 那样只靠模仿学习。批评 Meta 的 LLM 路线他公开批评 Meta 内部过度押注 LLM如 Llama 系列认为这是在“死胡同”里狂奔因为这些模型即便再大只要缺乏对物理世界的预测能力就永远无法实现真正的通用人工智能AGI。总结来说杨立昆的观点是智能 预测 规划。目前的 VLM/LLM 只能做“文本接龙”或“图像识别”它们无法在虚拟空间中推演“如果我这样做会发生什么”因此它们是“不如猫狗聪明”的因为猫狗都知道跳下桌子会摔痛而 LLM 只知道“摔痛”这个词的拼写。

更多文章