阿里前高管深夜万字长文:AI的下一个时代,不是“想得更久”,而是“边做边想”

张开发
2026/4/25 2:48:26 15 分钟阅读

分享文章

阿里前高管深夜万字长文:AI的下一个时代,不是“想得更久”,而是“边做边想”
林俊阳从阿里离职后没有回应任何风波没有官宣下一站而是直接甩出了一篇近万字的硬核长文。这篇技术思考在发布后几小时内就在X上炸开了锅有人评价它是“2026年开年最有分量的技术文章”。文章写得很专业全是技术语言但内核其实非常清晰AI正在从一个“会思考”的时代跨入一个“会做事”的时代。今天我就用你能听懂的大白话把这篇文章的核心拆解给你看。理解这件事对你判断接下来AI怎么用、往哪个方向走会有特别大的帮助。一、过去两年AI在解决什么问题林俊阳说过去两年AI行业做的最重要的一件事叫推理式思考。大白话就是让AI在回答问题之前先花更多时间想一想。OpenAI的o1模型打响了第一炮——通过强化学习训练让AI学会“先想后答”在脑子里多转几圈再给出答案。随后DeepSeek证明了这件事可以被复制而且可以在OpenAI之外做出来。这件事为什么重要因为它让AI第一次有了真正意义上的推理能力——不是背答案而是推导答案。整个2025年上半年所有人都在研究同一件事怎么让AI花更多时间思考怎么控制思考的力度怎么设计更强的反馈信号但林俊阳也点出了一个关键推理模型之所以能用强化学习训练是因为数学、代码、逻辑这些领域对错是确定的——答案要么对要么错。这才能给模型稳定的奖励信号。如果是模糊的、开放性的问题强化学习就很难做到。这是推理模型成立的前提也是它的边界。二、千问走过的弯路一个“完美想法”的翻车这篇文章里最让人意外的部分是林俊阳坦诚地复盘了千问团队走过的弯路。当时他们有一个雄心勃勃的构想把“思考模式”和“指令模式”合并到同一个模型里。说人话就是让一个模型同时做好两件事。你问简单问题它直接回答你问复杂问题它自动多想一会儿给出更深入的结论。而且还能根据问题难度自动判断应该想多久。千问3就是这个方向最清晰的一次尝试——引入了混合思维模式同时支持思考和非思考行为还设计了可控的“思维预算”。听起来非常完美对吧但做出来翻车了。林俊阳说真正的难点不是模型的兼容性而是数据。因为这两种模式对训练数据的要求从根本上是相反的指令模式需要的数据是快、短、直接、格式规范。追求低延迟、高吞吐。思考模式需要的数据是长、结构化、允许探索、允许绕路。因为复杂问题需要保留足够多的中间推理空间。两种数据硬塞在一起结果就是两边都做得一般。思考的时候啰啰嗦嗦、犹豫不决指令的时候不够干脆、又不够可靠。而且还更贵。后来千问怎么处理的拆开了。2025年下半年分别发布独立的版本分开维护不再强求合并。这个教训非常深刻有时候想用一个模型搞定所有事反而什么都做不好。三、其他公司做出了不同的选择林俊阳也逐一点评了其他公司的路线其中对AnthropicClaude的母公司的评价最正面。Claude 3.7 Sonnet作为混合推理模型推出用户可以自己选择普通回复还是扩展思考API用户甚至可以设置“思考预算”。Claude 4进一步允许推理和工具调用交替进行。Anthropic明确说推理应该是整合的能力而不是单独的模型。林俊阳认为这是一次有用的纠偏。因为他们的核心逻辑是思考应当由目标任务来塑造而不是越多越好。如果目标是写代码那么思考就应该帮助代码规划、分解任务、处理错误、调度工具。如果目标是长流程的智能体任务那么思考就应该提升多步骤的执行质量而不是产出一大段漂亮的内部推理文字。他说了一句特别关键的话“产出更长的推理轨迹不会自动让模型更聪明。在很多情况下过长的推理恰恰是模型算力分配失败的信号——它在用输出文字的量来掩盖真正的思考不足。”这句话值得反复琢磨。四、下一个时代智能体式思考这是整篇文章最核心的判断。林俊阳说推理思考时代的使命已经完成了。下一个时代叫做“智能体式思考”。这两者的根本区别是什么推理式思考智能体式思考AI在脑子里想一圈然后输出一个答案AI在和真实世界交互的过程中边做事边思考评判标准是答案对不对评判标准是任务完不完成他列出了智能体式思考必须处理的五件事这些是纯推理模型基本上不用面对的判断什么时候停止思考、开始行动——推理模型想完就给答案智能体要在思考和行动之间不断切换。选择调用哪个工具、以什么顺序——这不是简单的函数调用是实时的动态决策。消化来自环境的不完整信息——真实世界不会给你完美的反馈数据是脏的信号是片面的。失败之后修正计划——而不是推倒重来。跨越多轮对话和多次工具调用保持整体连贯性。一句话总结从“想更久”到“为了行动而想”。五、为什么做智能体比做推理模型难得多林俊阳花了大篇幅讲这件事我觉得这是全文最被低估的部分。做推理模型的训练过程相对“干净”给模型一个问题让它产生答案判断对错更新参数。一切在模型内部完成。但智能体就不一样了。模型需要嵌入一个巨大的外部系统工具、服务器、浏览器、代码执行沙箱、搜索引擎、记忆系统、多智能体编排架构……这些全部成了训练的一部分。举个例子训练一个能写代码的AI。它每写一段代码需要真的去运行看报不报错根据报错信息去修改。等待代码执行的这段时间整个训练流水线就在空转GPU的大量算力被浪费。加上工具的延迟、环境的状态变化、信息的不完整整个系统的效率会急剧下降。这带来了一个全新的技术要求训练和推理必须要彻底解耦否则吞吐量会崩溃。更重要的是林俊阳说在智能体时代环境设计本身变成了核心研究课题。环境要稳定、要真实、要覆盖足够多样的场景。还有一个特别关键的风险——作弊。一旦模型有了工具调用能力它可能会学会走捷径。有搜索就直接去搜答案有代码执行就利用未来信息有任何漏洞就找到并利用。训练出来的模型看起来超级强但实际上它在作弊。这就是智能体时代比推理时代微妙得多的地方更强的工具让模型更有用但也让“虚假优化”的攻击面更大。下一批真正的研究瓶颈来自环境设计、防作弊机制、以及评估器的鲁棒性你可以简单理解为“可靠性”。六、从训练模型到训练智能体再到训练系统这是林俊阳整篇文章的最终判断也是他认为下一场AI竞争的分水岭。推理时代的竞争优势来自更好的RL算法、更强的反馈信号、更大的训练规模。智能体时代的竞争优势来自更好的环境设计、更精密的训练和推理解耦、更强的多智能体编排能力、以及在模型的决策和决策产生的后果之间形成闭环。读完这篇文章我有一个很深的感受林俊阳没有说任何离职的事没有情绪没有暗示。但他写的这些是一个在一线做了很久的人才能说出来的话。甚至那六个字——“我们没有全做对”——在大厂里能说出来的人真的不多。更重要的是他说的不是遥远的未来是正在发生的。AI从“会说话”到“会做事”这个临界点已经到了。写在最后如果你觉得这篇文章对你有帮助可以多听两遍、多读两遍。理解AI正在经历的这场底层变革对你判断接下来怎么做产品、怎么用AI、甚至怎么规划自己的方向都会有特别大的帮助。

更多文章