何恺明首个语言模型：不走GPT老路，105M参数干翻主流

张开发

• 2026/5/16 3:17:00 • 15 分钟阅读

分享文章

何恺明首个语言模型不走GPT老路105M参数干翻主流ELF嵌入式语言流连续扩散路线第一次真正跑通了何恺明团队放出首个语言模型ELF——不走GPT自回归老路把扩散过程全留在连续空间只在最后一步变回词。结果105M参数、45B训练token、32步采样正面干翻用500B token训练的主流模型。01 | 这事为什么值得关注何恺明深度学习圈的传奇人物。ResNet残差网络第一作者这篇论文至今是AI领域被引用次数最多的论文之一奠定了现代深度学习的地基。他在2024年从Meta AI跳槽到MIT当Distinguished Scientist杰出科学家。去MIT之后他一直在搞生成模型但之前全是视觉方向——分形生成模型FractalMAR、均值流MeanFlow、双向归一化流BiFlow。这次不一样了他带队做语言模型了。而且做的不是大家熟悉的预测下一个词next token prediction的自回归范式——那条路由GPT走通、现在几乎所有大模型都在用的路线。他选的是另一条路扩散语言模型Diffusion Language Model, DLM而且他坚持走连续派不像别人停留在离散token空间里做扩散。02 | 扩散语言模型到底是什么路要理解ELF得先搞清楚现在语言模型的两大技术路线——路线一自回归AutoregressiveAR就是GPT那套一个词一个词地往外蹦。好处是稳定、好训练坏处是慢必须串行生成没法并行。路线二扩散语言模型DLM借鉴图像生成里的扩散模型思路从一堆噪声开始一步步去噪最后得到一段完整的文本。理论上可以并行解码速度远超自回归。DLM内部又分两派离散派Discrete DLM直接在token空间里做扩散比如MDLM、LLaDA、Duo。这条路近年来是主流效果也更好。连续派Continuous DLM先把token变成连续的向量embedding在连续空间里去噪最后再变回token。理论上更优雅但实际效果一直落后离散派。何恺明的判断不是语言必须离散而是前人没把连续路线走到底。ELF的核心思路只有一句话把扩散过程全留在连续空间只在最后一步才变回token。03 | ELF到底做了什么我尽量用人话讲清楚这个模型的设计。第一步把词变成连续向量输入一句话先切成token再通过T5预训练编码器映射成连续的embedding向量表示。这个编码器只在训练时用推理时不需要额外模块。第二步在连续空间里做Flow Matching这是ELF的核心。定义一个从噪声到干净数据的连续轨迹t0时是高斯噪声t1时是干净的embedding中间状态是两者的线性插值rectified flow。重点来了ELF不直接预测速度场v而是沿用了何恺明团队半年前论文《Back to Basics》的思路——直接预测干净embedding xx-prediction。训练目标就是最小化预测embedding和真实embedding之间的均方误差MSE。第三步最后一步才变回token生成语言最终还是要输出离散token。ELF只在最后一个时间步t1才把连续embedding通过可学习的unembedding矩阵投影成token logits再通过argmax输出最终token。关键设计去噪和解码是同一个网络靠一个二值mode token切换去噪模式/解码模式参数完全共享。不需要额外训练一个独立decoder04 | 实验结果十分之一训练量干翻主流这部分是ELF最硬的地方。我列几个关键数字模型参数训练token采样步数生成困惑度↓MDLM离散派SOTA109M~500B1024步~28Duo离散派124M~500B1024步~27ELF连续派105M45B32步24生成困惑度Perplexity越低越好代表生成文本越接近人类写的语料。ELF只用了十分之一的训练数据、三十二分之一的采样步数就把困惑度压到了24全面优于离散派对手。条件生成任务WMT14德→英翻译ELF取得26.4 BLEU超过自回归baseline25.2和MDLM18.4、CDCD24.9XSum摘要任务ROUGE-1/ROUGE-2/ROUGE-L三项指标均居首位核心结论连续扩散语言模型不是不能打而是以前没把连续这件事做到底。ELF第一次在质量、速度、训练成本三个维度同时赢了离散派。05 | 作者阵容MIT的梦之队这篇论文的作者阵容可以用豪华形容共同一作1胡珂雅MIT EECS一年级博士生何恺明在MIT带的第一批博士生之一由恺明和Jacob Andreas联合指导。本科毕业于上交ACM班。在恺明MIT主页的Grad students列表里排第一位堪称大师姐。共同一作2Linlu QiuMIT博士生师从Yoon Kim。本科毕业于香港大学硕士毕业于Georgia Institute of Technology此前还在Google做过AI Resident。前不久刚和恺明团队合作发表了CVPR 2026论文《ARC Is a Vision Problem!》。作者3赵瀚宏Hanhong ZhaoMIT本科生高中就读人大附中国际物理奥林匹克竞赛IPhO金牌得主。少年班级别的天才。作者4陆伊炀清华姚班大二本科生目前在MIT CSAIL实习导师何恺明。高中物理竞赛生2022年全国中学生物理竞赛CPhO金牌江苏第一、全国第九。何恺明不用多介绍了。ResNet第一作者CV领域传奇人物现任MIT Distinguished Scientist、Google DeepMind Distinguished Scientist兼职。06 | 这事对普通用户有什么影响说实话这篇论文目前还是研究机构在玩离直接能用的产品还有距离。但它指向的几个方向值得关注1. 并行解码可能真的可行自回归模型GPT必须一个词一个词蹦扩散模型理论上可以并行生成速度快得多。如果这条路线成熟将来AI回复速度可能提升5-10倍。2. 小模型也能有高质量输出ELF用105M参数比GPT-3.5小几百倍就达到了不错的质量说明模型架构创新比堆参数更重要。3. 训练成本大幅下降十分之一的训练数据达到更好效果意味着小团队也有机会训练自己的语言模型不需要几亿美元。⚠️冷静一下ELF目前只在中等规模基准上测试能不能在大规模任务上和GPT-4o、Claude 4正面竞争还有待验证。学术研究和工业落地之间还有很长的路。07 | 怎么获取论文和代码论文和代码都已经开源论文地址https://arxiv.org/pdf/2605.10938v1代码仓库https://github.com/lillian039/ELF安装运行如果你懂深度学习代码已开源在GitHub基于PyTorch实现。需要T5编码器预训练训练用45B tokenOpenWebText语料。如果你只是好奇直接读论文的Introduction和Experiment部分就够了不需要跑代码。写在最后何恺明做事情一向有自己的节奏不追热点不堆复杂度而是回到问题本身问一句这件事最优雅的解法是什么ResNet是这样——当时大家都在堆网络深度他发现加深反而退化于是提出残差连接一举解决了深层网络训练难题。这次的ELF也是这样——大家都去离散空间做扩散因为语言是离散的这个直觉太强他反其道而行之坚持连续到底结果真的跑通了而且效果出人意料地好。技术路线没有绝对的对错只有有没有做到极致的区别。ELF的价值不在于它现在就能替代GPT而在于它证明了一件事连续扩散这条路值得认真走下去。对于AI从业者值得精读这篇论文Flow Matching在语言上的适配方式有很多可以借鉴的地方。对于普通用户关注这条路线的发展将来可能会出现速度远超现在AI的并行生成模型那是真的秒回。

更多文章

前端开发 2026/5/16 3:04:15

Agent Harness安全怎么管？看OfficeClaw如何构建纵深防御体系

2026年，OpenClaw作为个人AI助手领域的现象级产品迅速走红，GitHub星标突破10万，短短数月成为开发者与极客圈的热门选择。它以本地优先、多通道集成、技能自扩展等特性，重新定义了Agent的形态。OpenClaw爆火背后的安全隐忧然而&am…

3大光学仿真方法全解析：从理论到实践的严格耦合波分析指南【免费下载链接】Rigorous-Coupled-Wave-Analysis modules for semi-analytic fourier series solutions for Maxwells equations. Includes transfer-matrix-method, plane-wave-expansion-method, and ri…

张开发

前端开发 2026/5/16 2:00:53

高性能云端GPU推荐，满足深度学习全场景需求

本文以安诺其集团旗下专业GPU算力平台“智星云”为样本，从其技术架构、全系型号定价、主流平台对比、全场景适配四个维度展开，聚焦一个核心问题：在算力价格全线上涨的2026年，高性能深度学习任务如何用合理的预算匹配最合适的GPU方…

张开发

何恺明首个语言模型：不走GPT老路，105M参数干翻主流

最新文章

5分钟快速上手sg3_utils：终极SCSI存储设备管理工具指南

Arduino智能小车避障与拟人化设计：从传感器到行为逻辑

鸿蒙组件导航vs页面路由：Navigation与Router

Perplexity出版社信息查询全攻略：从API调用到元数据溯源的7步精准定位法

AI进阶，韧性必修：从传统灾备到数据韧性“变形记”

为什么92%的团队GitOps落地失败？DeepSeek内部未公开的4层权限治理模型首次披露

推荐文章

AI驱动蛋白质工程：从语言模型与拓扑数据分析到高效工作流构建

AI眼科医疗：从CNN、GAN到RNN的疾病诊断与预测技术演进

AI付费订阅与API稳定调用全攻略：支付、中转与避坑指南

GPT增强众筹文案对捐赠偏好影响的实验设计与分析

构式语法与AI融合：从理论到计算实现的双向赋能

基于Spring Boot的游戏攻略交流平台毕设

相关文章

R 4.5新增s2_geometry()函数实测：全球10亿点集距离计算耗时从47分钟降至89秒（附基准测试完整复现代码）

Hotkey Detective：3分钟解决Windows热键冲突的完整指南

5步掌握跨平台数据采集：MediaCrawler智能爬虫工具终极指南

预推免‘赶考’全记录：一周内辗转广州、长沙四场线下复试的真实体验与行程攻略

HALCON 20110 + Python 3.8 环境搭建避坑指南：从dll配置到复杂测量功能实现

算法公平性审查官认证考试全攻略：软件测试从业者的进阶之路

分享文章

更多文章

Agent Harness安全怎么管？看OfficeClaw如何构建纵深防御体系

图数据库赋能AI记忆体：构建可查询的长期记忆系统

论文AI率超80%怎么破？4个实用降AI技巧+免费工具攻略

NotebookLM营养知识图谱构建指南：基于PubMed万篇摘要的自动实体抽取与因果链挖掘（附可复现Jupyter模板）

从零到一：Ubuntu Server上构建生产级Slurm计算集群

原生三件套构建极简个人主页：零依赖Web开发实践

如何利用6自由度KUKA机器人实现高效精准的抓取放置操作

避坑指南：OpenCV Aruco码检测不准确？可能是你的相机没标定好

无风扇智能本设计全解析：从被动散热原理到工程实践

Midjourney提示词进阶四象限：基础描述×风格控制×构图约束×渲染参数，一张表掌握全量组合逻辑

3大光学仿真方法全解析：从理论到实践的严格耦合波分析指南

高性能云端GPU推荐，满足深度学习全场景需求

何恺明首个语言模型：不走GPT老路，105M参数干翻主流

最新文章

5分钟快速上手sg3_utils：终极SCSI存储设备管理工具指南

Arduino智能小车避障与拟人化设计：从传感器到行为逻辑

鸿蒙 组件导航vs页面路由：Navigation与Router

Perplexity出版社信息查询全攻略：从API调用到元数据溯源的7步精准定位法

AI进阶，韧性必修：从传统灾备到数据韧性“变形记”

为什么92%的团队GitOps落地失败？DeepSeek内部未公开的4层权限治理模型首次披露

推荐文章

AI驱动蛋白质工程：从语言模型与拓扑数据分析到高效工作流构建

AI眼科医疗：从CNN、GAN到RNN的疾病诊断与预测技术演进

AI付费订阅与API稳定调用全攻略：支付、中转与避坑指南

GPT增强众筹文案对捐赠偏好影响的实验设计与分析

构式语法与AI融合：从理论到计算实现的双向赋能

基于Spring Boot的游戏攻略交流平台毕设

相关文章

R 4.5新增s2_geometry()函数实测：全球10亿点集距离计算耗时从47分钟降至89秒（附基准测试完整复现代码）

Hotkey Detective：3分钟解决Windows热键冲突的完整指南

5步掌握跨平台数据采集：MediaCrawler智能爬虫工具终极指南

预推免‘赶考’全记录：一周内辗转广州、长沙四场线下复试的真实体验与行程攻略

HALCON 20110 + Python 3.8 环境搭建避坑指南：从dll配置到复杂测量功能实现

算法公平性审查官认证考试全攻略：软件测试从业者的进阶之路

分享文章

更多文章

鸿蒙组件导航vs页面路由：Navigation与Router