何恺明首个语言模型:不走GPT老路,105M参数干翻主流

张开发
2026/5/16 3:17:00 15 分钟阅读

分享文章

何恺明首个语言模型:不走GPT老路,105M参数干翻主流
何恺明首个语言模型不走GPT老路105M参数干翻主流ELF嵌入式语言流连续扩散路线第一次真正跑通了何恺明团队放出首个语言模型ELF——不走GPT自回归老路把扩散过程全留在连续空间只在最后一步变回词。结果105M参数、45B训练token、32步采样正面干翻用500B token训练的主流模型。01 | 这事为什么值得关注何恺明深度学习圈的传奇人物。ResNet残差网络第一作者这篇论文至今是AI领域被引用次数最多的论文之一奠定了现代深度学习的地基。他在2024年从Meta AI跳槽到MIT当Distinguished Scientist杰出科学家。去MIT之后他一直在搞生成模型但之前全是视觉方向——分形生成模型FractalMAR、均值流MeanFlow、双向归一化流BiFlow。这次不一样了他带队做语言模型了。而且做的不是大家熟悉的预测下一个词next token prediction的自回归范式——那条路由GPT走通、现在几乎所有大模型都在用的路线。他选的是另一条路扩散语言模型Diffusion Language Model, DLM而且他坚持走连续派不像别人停留在离散token空间里做扩散。02 | 扩散语言模型到底是什么路要理解ELF得先搞清楚现在语言模型的两大技术路线——路线一自回归AutoregressiveAR就是GPT那套一个词一个词地往外蹦。好处是稳定、好训练坏处是慢必须串行生成没法并行。路线二扩散语言模型DLM借鉴图像生成里的扩散模型思路从一堆噪声开始一步步去噪最后得到一段完整的文本。理论上可以并行解码速度远超自回归。DLM内部又分两派离散派Discrete DLM直接在token空间里做扩散比如MDLM、LLaDA、Duo。这条路近年来是主流效果也更好。连续派Continuous DLM先把token变成连续的向量embedding在连续空间里去噪最后再变回token。理论上更优雅但实际效果一直落后离散派。何恺明的判断不是语言必须离散而是前人没把连续路线走到底。ELF的核心思路只有一句话把扩散过程全留在连续空间只在最后一步才变回token。03 | ELF到底做了什么我尽量用人话讲清楚这个模型的设计。第一步把词变成连续向量输入一句话先切成token再通过T5预训练编码器映射成连续的embedding向量表示。这个编码器只在训练时用推理时不需要额外模块。第二步在连续空间里做Flow Matching这是ELF的核心。定义一个从噪声到干净数据的连续轨迹t0时是高斯噪声t1时是干净的embedding中间状态是两者的线性插值rectified flow。重点来了ELF不直接预测速度场v而是沿用了何恺明团队半年前论文《Back to Basics》的思路——直接预测干净embedding xx-prediction。训练目标就是最小化预测embedding和真实embedding之间的均方误差MSE。第三步最后一步才变回token生成语言最终还是要输出离散token。ELF只在最后一个时间步t1才把连续embedding通过可学习的unembedding矩阵投影成token logits再通过argmax输出最终token。关键设计去噪和解码是同一个网络靠一个二值mode token切换去噪模式/解码模式参数完全共享。不需要额外训练一个独立decoder04 | 实验结果十分之一训练量干翻主流这部分是ELF最硬的地方。我列几个关键数字模型参数训练token采样步数生成困惑度↓MDLM离散派SOTA109M~500B1024步~28Duo离散派124M~500B1024步~27ELF连续派105M45B32步24生成困惑度Perplexity越低越好代表生成文本越接近人类写的语料。ELF只用了十分之一的训练数据、三十二分之一的采样步数就把困惑度压到了24全面优于离散派对手。条件生成任务WMT14德→英翻译ELF取得26.4 BLEU超过自回归baseline25.2和MDLM18.4、CDCD24.9XSum摘要任务ROUGE-1/ROUGE-2/ROUGE-L三项指标均居首位核心结论连续扩散语言模型不是不能打而是以前没把连续这件事做到底。ELF第一次在质量、速度、训练成本三个维度同时赢了离散派。05 | 作者阵容MIT的梦之队这篇论文的作者阵容可以用豪华形容共同一作1胡珂雅MIT EECS一年级博士生何恺明在MIT带的第一批博士生之一由恺明和Jacob Andreas联合指导。本科毕业于上交ACM班。在恺明MIT主页的Grad students列表里排第一位堪称大师姐。共同一作2Linlu QiuMIT博士生师从Yoon Kim。本科毕业于香港大学硕士毕业于Georgia Institute of Technology此前还在Google做过AI Resident。前不久刚和恺明团队合作发表了CVPR 2026论文《ARC Is a Vision Problem!》。作者3赵瀚宏Hanhong ZhaoMIT本科生高中就读人大附中国际物理奥林匹克竞赛IPhO金牌得主。少年班级别的天才。作者4陆伊炀清华姚班大二本科生目前在MIT CSAIL实习导师何恺明。高中物理竞赛生2022年全国中学生物理竞赛CPhO金牌江苏第一、全国第九。何恺明不用多介绍了。ResNet第一作者CV领域传奇人物现任MIT Distinguished Scientist、Google DeepMind Distinguished Scientist兼职。06 | 这事对普通用户有什么影响说实话这篇论文目前还是研究机构在玩离直接能用的产品还有距离。但它指向的几个方向值得关注1. 并行解码可能真的可行自回归模型GPT必须一个词一个词蹦扩散模型理论上可以并行生成速度快得多。如果这条路线成熟将来AI回复速度可能提升5-10倍。2. 小模型也能有高质量输出ELF用105M参数比GPT-3.5小几百倍就达到了不错的质量说明模型架构创新比堆参数更重要。3. 训练成本大幅下降十分之一的训练数据达到更好效果意味着小团队也有机会训练自己的语言模型不需要几亿美元。⚠️冷静一下ELF目前只在中等规模基准上测试能不能在大规模任务上和GPT-4o、Claude 4正面竞争还有待验证。学术研究和工业落地之间还有很长的路。07 | 怎么获取论文和代码论文和代码都已经开源论文地址https://arxiv.org/pdf/2605.10938v1代码仓库https://github.com/lillian039/ELF安装运行如果你懂深度学习代码已开源在GitHub基于PyTorch实现。需要T5编码器预训练训练用45B tokenOpenWebText语料。如果你只是好奇直接读论文的Introduction和Experiment部分就够了不需要跑代码。写在最后何恺明做事情一向有自己的节奏不追热点不堆复杂度而是回到问题本身问一句这件事最优雅的解法是什么ResNet是这样——当时大家都在堆网络深度他发现加深反而退化于是提出残差连接一举解决了深层网络训练难题。这次的ELF也是这样——大家都去离散空间做扩散因为语言是离散的这个直觉太强他反其道而行之坚持连续到底结果真的跑通了而且效果出人意料地好。技术路线没有绝对的对错只有有没有做到极致的区别。ELF的价值不在于它现在就能替代GPT而在于它证明了一件事连续扩散这条路值得认真走下去。对于AI从业者值得精读这篇论文Flow Matching在语言上的适配方式有很多可以借鉴的地方。对于普通用户关注这条路线的发展将来可能会出现速度远超现在AI的并行生成模型那是真的秒回。

更多文章