杨立昆说vlm没法预测自己行为的后果

张开发

• 2026/5/11 21:42:59 • 15 分钟阅读

分享文章

你的理解非常准确。杨立昆Yann LeCun确实多次强调目前的视觉-语言模型VLM以及大语言模型LLM无法真正预测自身行为的后果。他认为这是当前 AI 架构与真正智能甚至只是像猫狗那样的生物智能之间最大的鸿沟。结合最新的资料我为你详细拆解一下他为什么这么说以及他认为的解决方案是什么1. 核心痛点为什么 VLM/LLM 无法预测后果杨立昆认为目前的模型本质上是基于文本或离散符号的统计关联缺乏对物理世界的因果理解。缺乏“世界模型”目前的 VLM 只是处理语言的投影或图像的静态特征它们没有构建一个内部的“世界模型”。这意味着它们不知道当你执行动作AAA时世界状态会从StS_tSt变为St1S_{t1}St1。例子如果你问 LLM“把咖啡杯放在桌边会怎样”它可能会根据训练数据回答“会碎”因为它读过类似的句子。但它并不真正理解重力、摩擦力或桌子的物理属性。它只是在“背诵”概率而不是在“模拟”物理过程。无法处理连续的高维数据杨立昆指出现实世界是连续的视频、物理运动而 LLM/VLM 处理的是离散的 Token。试图用离散的语言模型去预测连续的物理世界后果就像用文字去描述每一帧视频像素的变化效率极低且不准确。没有“行动”的概念目前的模型大多是被动地处理输入并生成输出它们没有“行动Action”这一环。智能的核心在于通过行动改变世界并预测改变后的状态。没有这种“行动-后果”的闭环AI 就无法进行真正的规划Planning。2. 他的解决方案联合嵌入预测架构 (JEPA)为了解决这个问题杨立昆提出了JEPA (Joint Embedding Predictive Architecture)这是他目前最推崇的架构也是他离开 Meta 创业后的核心方向。不预测像素只预测“抽象表示”传统的生成式模型试图预测下一个像素这很难且容易模糊。JEPA 的思路是将输入如视频帧转化为抽象的嵌入表示Embedding然后在抽象空间里预测未来的状态。比喻就像物理学家预测行星轨迹时不需要预测行星上每一块岩石的位置只需要预测位置和速度这几个关键变量。引入“行动”作为条件在 JEPA 的框架下模型不仅观察世界还会把“行动aaa”作为输入。模型学习的是函数St1f(St,a)S_{t1} f(S_t, a)St1f(St,a)。这样AI 就能在“脑海”中模拟如果我做动作a1a_1a1世界会变成什么样如果我做动作a2a_2a2又会变成什么样。这就是规划的基础。3. 最新动态从“理论”到“物理验证”根据 2025 年到 2026 年的最新进展杨立昆不仅在理论上坚持这一点还在实践中证明了这一点V-JEPA 与机械臂他的团队展示了基于 V-JEPA 的机械臂能够通过“想象”动作后果来调整抓取策略例如预测鸡蛋滑落的风险并调整角度而不是像传统 VLM 那样只靠模仿学习。批评 Meta 的 LLM 路线他公开批评 Meta 内部过度押注 LLM如 Llama 系列认为这是在“死胡同”里狂奔因为这些模型即便再大只要缺乏对物理世界的预测能力就永远无法实现真正的通用人工智能AGI。总结来说杨立昆的观点是智能预测规划。目前的 VLM/LLM 只能做“文本接龙”或“图像识别”它们无法在虚拟空间中推演“如果我这样做会发生什么”因此它们是“不如猫狗聪明”的因为猫狗都知道跳下桌子会摔痛而 LLM 只知道“摔痛”这个词的拼写。

杨立昆说vlm没法预测自己行为的后果

最新文章

【PTA实战】矩阵乘法：从输入格式到核心算法的完整解析

MATLAB计时函数背后的秘密：从tic/toc到cputime，带你深入理解计算机时间测量原理

终极指南：如何用ViGEmBus虚拟手柄驱动解决Windows游戏手柄兼容性问题

多云网络：连接跨云环境的网络架构

3个步骤彻底解决Windows软件运行库缺失问题：VisualCppRedist AIO实战指南

技术人的情绪劳动：理性思维背后的情感消耗

推荐文章

AI驱动蛋白质工程：从语言模型与拓扑数据分析到高效工作流构建

AI眼科医疗：从CNN、GAN到RNN的疾病诊断与预测技术演进

AI付费订阅与API稳定调用全攻略：支付、中转与避坑指南

GPT增强众筹文案对捐赠偏好影响的实验设计与分析

构式语法与AI融合：从理论到计算实现的双向赋能

基于Spring Boot的游戏攻略交流平台毕设

相关文章

R 4.5新增s2_geometry()函数实测：全球10亿点集距离计算耗时从47分钟降至89秒（附基准测试完整复现代码）

Hotkey Detective：3分钟解决Windows热键冲突的完整指南

5步掌握跨平台数据采集：MediaCrawler智能爬虫工具终极指南

预推免‘赶考’全记录：一周内辗转广州、长沙四场线下复试的真实体验与行程攻略

HALCON 20110 + Python 3.8 环境搭建避坑指南：从dll配置到复杂测量功能实现

算法公平性审查官认证考试全攻略：软件测试从业者的进阶之路

分享文章

更多文章

HyperCeiler下载最新版

如何切换Dev-C++中的32位和64位编译器

从ArrayDeque和LinkedList源码出发，手把手教你为Java栈操作选型

5分钟快速上手：浏览器PPT查看终极解决方案PPTXjs

Photon光影包：如何为Minecraft打造电影级视觉体验

Kubernetes架构与核心概念详解

社会网络分析(五) | 实战Gephi进阶布局，优化小说社群可视化

Matlab机器人姿态解算实战：从旋转矩阵到齐次变换的完整链路

【仅限首批Early Access用户】Claude 3.5 Sonnet的“动态温度调节”机制详解：如何让模型在严谨性与创意性间智能切换？

从Matlab到Web端：眼科OCT图像分割工具的技术演进与选型心得

React自定义光标组件实战：从原理到高级应用

英雄联盟客户端自动化工具LeagueAkari：本地化智能助手终极指南