南开大学与阿里联合攻关:让AI画图从“百步成图“变成“四步出图“

张开发
2026/5/13 6:04:37 15 分钟阅读

分享文章

南开大学与阿里联合攻关:让AI画图从“百步成图“变成“四步出图“
这项由南开大学、阿里巴巴集团和吉林大学联合完成的研究于2026年5月以预印本形式发布论文编号为arXiv:2605.06376。有兴趣深入了解技术细节的读者可以通过该编号在arXiv平台查阅完整论文或访问项目主页及GitHub代码仓库获取更多资料。以烹饪来打比方现在最顶尖的AI画图模型就像一位精益求精的大厨每次下厨都要经历几十甚至上百道工序反复翻炒、调味、摆盘才能端出一道色香味俱全的菜肴。这种精工细作固然出色但在实际使用中每次下单都要等上半天显然不够实用。于是研究者们开始思考能否培训出一批速成厨师用仅仅四道工序就端出同样美味的佳肴这就是所谓的扩散模型蒸馏——把一个慢模型的本领压缩传授给一个快模型。然而现有的速成方案普遍存在一个令人头疼的问题端出来的菜总是过于平淡细节模糊像是用大锅快炒出来的大众食堂风格缺少原来大厨作品里那种层次分明的口感和精细的摆盘。研究团队通过深入分析找到了症结所在并提出了一套名为连续时间分布匹配CDMContinuous-Time Distribution Matching的全新方案在不借助任何额外提鲜剂GAN对抗网络或奖励模型的情况下让四步速成的图像质量实现了显著跃升。一、为什么速成厨师总是做不出细节要理解这个问题先得明白AI画图的基本逻辑。扩散模型的工作方式就像把一幅清晰的画逐步加上噪点直到变成一片雪花屏然后再训练模型把这个过程倒过来——从雪花屏一步步还原出清晰的画。这个从噪点到清晰图像的还原之路通常需要走上几十到一百步。现在有一种主流的蒸馏思路叫做分布匹配蒸馏DMD核心做法是让速成学生模型产生的图像其整体分布要尽量贴近老师模型产生的图像分布。但问题在于已有的DMD方法有一个根深蒂固的习惯——它们会严格规定学生在训练时只能在几个固定的时间节点上练习比如第1步、第3步、第5步、第7步完全对应推理时要走的那几步中间的所有时刻全部跳过就好比培训厨师时只让他练习第一刀切菜、第三次翻炒、第五次调味中间大量的操作细节全部略去不练。这种离散锚点训练方式带来两个明显弊端。其一学生只在几个孤立的时刻接受监督相当于只是零散地打了几个卡没有办法形成流畅连贯的操作手感导致生成的速度场不够平滑其二DMD本身采用的是一种叫做反向KL散度的优化目标这种目标天生偏向于只模仿老师最拿手的那几种招牌菜容易忽视更丰富的多样性最终导致生成的图像过于平滑缺乏细节甚至出现明显的视觉瑕疵。为了弥补这些缺陷已有方法往往需要额外引入对抗网络GAN或者外部奖励模型来打补丁这不仅增加了系统的复杂度也带来了更高的训练成本。二、一个意外发现打卡时间其实不用那么死板研究团队做了一个很直觉上简单、但结论却出人意料的实验。他们把原本固定在四个离散时间节点的训练改成在整个时间轴上随机采样——每次训练迭代随机选一个时间点随机选一段模拟长度不再死守原来的固定节点。实验结果显示这个看似微不足道的改动不仅没有损害模型性能反而带来了一致性的提升在HPSv3这项评估人类偏好的指标上动态调度版本从10.08提升到了10.65同时生成的图像细节更丰富视觉瑕疵也更少。这个发现直接推翻了长期以来训练时间节点必须与推理时间节点严格对齐的默认假设说明分布匹配的效果与具体使用哪几个固定节点无关严格的离散对齐反而是一种多余的限制。从数学层面来看这个做法的合理性在于当学生模型的时间节点和老师模型的扰动时间步都从同一个连续分布中独立采样时两者在期望意义上会均匀地覆盖整个时间域而不是只在几个固定位置产生梯度信号。这就好比培训厨师时不是只让他练习第1分钟、第3分钟、第5分钟的操作而是随机抽查任意时刻这样练出来的厨师对整个烹饪流程的掌握会更全面、更扎实。三、另一个关键发现分布匹配损失究竟在做什么在充分理解动态调度的优势之后研究团队还发现了另一个被长期误解的问题。此前有研究认为DMD的训练目标可以拆分为两个独立部分一个CFG增强CA损失负责让图像与文字描述对齐而分布匹配DM损失只是一个辅助稳定训练、减少瑕疵的调味料本身并不承担核心功能。然而研究团队用视觉和数量两方面的证据推翻了这个判断。他们训练了一批只用DM损失、不用CA损失的学生模型然后把这些学生的输出与老师模型在开启和关闭CFG分类器无关引导一种让图像更贴合文字的技术时的输出做比较。结果非常清晰只用DM损失蒸馏出来的学生产生的图像与老师在**不开启CFG**时的输出高度相似无论是视觉风格还是各项量化指标都几乎一一对应。这个现象在SD3-Medium和Longcat-Image两个不同的基础模型上都得到了复现。这意味着DM损失并不是一个无关紧要的辅助项它实际上是在驱动学生模型学习老师在无引导状态下的自然分布——一种未经CFG放大、更接近原始数据分布的输出。理解这一点非常关键因为它说明了DM损失有其确定的、独立的功能定位而不仅仅是一个稳定器。在整个CDM框架的设计中CA损失和DM损失各司其职CA负责把图像往正确的文字描述方向推DM负责维持图像的真实感和分布一致性两者缺一不可。四、CDM框架的核心设计连续时间里的离线纠偏基于上述两个发现研究团队设计了CDM框架的两个核心组件。第一个组件是动态连续时间调度策略。在每次训练迭代时模拟的推理步数N不再固定而是从1到最大值Nmax实验中设为28之间随机采样时间节点也不再是固定的几个离散值而是在整个连续区间(0, 1]上随机生成一组严格递减的序列。这样学生模型在不同训练轮次中会接触到长短不一、位置各异的轨迹片段相当于用各种不同的切菜方式和烹饪节奏反复练习而不是机械重复同一套固定动作。第二个组件是CDM损失这也是整个框架最具创意的部分用来解决离轨漂移问题。这里需要解释一下什么是离轨漂移。当速成学生模型用很少的步数走完从噪声到清晰图像的路程时每一步的跨度都很大。就像在山路上开车如果每个弯道都要一脚油门跨过去而不是缓缓地沿着弯道行驶车就很容易冲出道路——这就是离轨。数学上可以证明每一步Euler积分一种常见的数值积分方法引入的局部误差与步长的平方成正比累积下来的全局误差则与最大步长成正比而这个误差的大小还取决于速度场模型预测的行进方向在相邻时刻之间的变化有多剧烈。为了压制这种离轨漂移CDM损失设计了一种主动探测机制。做法如下在某个时间节点ti处取出轨迹上的当前状态xti用学生模型预测此刻的速度方向然后沿着这个方向走一小步到达一个新的位置xti——这个位置并不在原来的模拟轨迹上而是通过一阶Euler外推得到的离轨点。接下来把这个离轨点输入学生模型得到学生对从这里出发应该到达哪里的预测再把这个预测加上随机噪声让冻结的老师模型和在线更新的仿冒老师分别给出评分并计算两者的差异作为监督信号反向传播更新学生模型。这个设计背后的物理直觉是如果学生在轨迹上某个点预测的速度方向有偏差那么沿着这个错误方向走一步后到达的位置就会偏离理想轨迹。CDM损失通过在这个偏离位置施加额外监督相当于告诉学生你走偏了请纠正。更重要的是从数学上可以推导出这种在相邻两点上同时施加约束的做法实际上是在约束速度场的物质导数即速度随时间和空间的综合变化率而这正是局部截断误差中唯一可以通过训练来控制的量。因此CDM损失通过模仿老师模型的速度场变化率把老师那种平滑流畅的行车风格迁移给了学生。整个训练目标就是这三部分损失的加和CA损失加上DM损失再加上CDM损失三者权重相等。五、实验结果数字和画面都说话研究团队在两个不同规格的基础模型上进行了大量实验分别是Stability AI的SD3-Medium和美团的Longcat-Image两者都在1024×1024的高分辨率下运行。评测指标覆盖了美学评分AES、提示词遵从度DPGBench、人类偏好评分PickScore和HPSv3、语义对齐CLIPScore等多个维度。在SD3-Medium上CDM在4步推理的条件下拿到了所有对比方法中最高的美学评分6.075、DPGBench得分85.26、PickScore21.95和HPSv39.561同时CLIPScore也处于竞争力水平。与最接近的无图像对比基准D-DMD相比CDM在HPSv3上从9.176提升到了9.561提升幅度显著。特别值得一提的是CDM的4步学生模型在DPGBench和HPSv3两项指标上已经超越了需要走100步的原始老师模型——这意味着蒸馏过程并不只是复制老师而是在某些维度上实现了超越。在Longcat-Image上同样的趋势得到复现CDM在美学、DPGBench、PickScore、HPSv3四项指标上均排名第一HPSv3更是从D-DMD的9.629大幅跃升至10.65。与此同时研究团队还额外测试了OCR文字渲染准确率使用PaddleOCR在1K个包含文字的提示上评估和FID衡量生成分布与真实数据分布之间的距离使用COCO 2014验证集的10K张图像评估。CDM在FID上以30.30排名第一在OCR上以34.82排名第二略低于固定调度版本的37.33。在效率方面CDM的训练时间约为D-DMD的1.8倍显存占用从62.2GB略增至62.5GB基本持平。但这些额外的训练开销完全限于训练阶段——推理时CDM与D-DMD使用相同的网络结构和相同的步数每张图的生成时间同样是246毫秒没有任何额外负担。六、消融实验每个设计决策都有它的理由为了验证每个设计组件的必要性研究团队做了系统的消融分析。首先是损失函数的组合实验。单独使用CA损失会导致结构崩溃图像完全失控单独使用DM损失或CDM损失虽然能恢复视觉质量但文字对齐能力明显不足CLIPScore大幅下滑CA与任意一种分布匹配损失配合使用效果就显著提升而三者全部组合的完整目标在所有指标上都达到最优HPSv3峰值9.561。这证明三个损失组件在功能上互补缺少任何一个都会有明显代价。其次是核心机制的细节对比。把动态连续调度换回固定离散调度后HPSv3从9.561下降到9.482各项指标均有不同程度下滑直接验证了连续调度的增益。把速度场驱动的外推替换为高斯噪声扰动先预测出干净图像再重新加噪或者完全不做任何扰动直接在原轨迹点施加监督性能均有所下降——说明模拟真实推理偏差的速度外推比简单的噪声扰动更能捕捉到真正有意义的离轨状态。把CDM损失中用于监督的参考目标从局部估计在离轨点处预测的干净图像换成全局估计完整推理路径末端的图像同样会带来性能下滑证明了局部化的监督信号比全局信号在误差纠正上更直接有效。七、模型的灵活性训练时定4步用的时候可以不止4步CDM还展示了一个颇具实用价值的特性虽然学生模型以4步为目标进行蒸馏但由于训练过程覆盖了连续的时间域生成的速度场更加平滑学生模型在推理时可以灵活地使用3步、4步、6步或8步无需针对不同步数重新训练或调整参数。研究团队用同一个CDM检查点分别生成了NFE为3、4、6、8的图像使用完全相同的提示词和随机种子。结果显示模型在整个范围内都能产生连贯的、与提示词对应的图像步数越多则细节越精细。这种灵活性来源于两个设计动态调度让学生在训练中接触过各种长度的轨迹CDM损失则约束了速度场的物质导数使得每步积分的误差更小因此少几步或多几步都不会导致模型失控。八、研究的边界与未来方向研究团队也坦诚地指出了CDM目前存在的局限性。训练成本增加约1.8倍这对于大规模工业应用来说是一个需要权衡的因素。CDM作为蒸馏框架天花板由老师模型决定——如果老师模型本身对某些概念或构图的理解存在缺陷学生也难以通过蒸馏弥补。此外目前的实验仅限于文本生成图像的场景研究团队表示后续希望将CDM扩展到文图混合编辑和视频扩散模型后者在时序一致性方面会带来新的挑战。说到底CDM这项工作的核心贡献在于一个思维方式的转变与其把训练严格锁死在与推理对应的几个固定时刻不如让监督信号均匀地覆盖整条时间轴同时主动去探测和纠正推理过程中真正会遇到的那种偏离。两个关键发现——调度可以解耦、DM损失是在学习无引导分布——为这套设计提供了清晰的理论支撑而实验数据也反复证实这两个方向的改进是真实有效的而不是刷指标的技巧。对于所有需要在速度和质量之间做权衡的生成模型应用来说CDM提供了一个不依赖复杂外部模块、可以相对低成本复现的参考方案。有兴趣深入了解的读者可以通过arXiv:2605.06376查阅完整论文项目代码也已在GitHub上公开。---QAQ1CDM蒸馏方法和普通的扩散模型蒸馏有什么本质区别A普通的DMD蒸馏方法在训练时只在与推理步数完全对应的几个固定时间节点施加监督中间时刻全部跳过。CDM打破了这个限制改为在整个连续时间轴上随机采样训练节点同时新增了一个离轨点监督机制沿着学生预测的速度方向走一步到一个偏离轨迹的位置在那里额外施加约束直接压制推理时因大步长积分产生的误差积累。Q2CDM为什么不需要GAN或奖励模型就能生成高质量图像A以往方法在只用分布匹配训练时因为离散锚点稀疏、模式单一容易产生过度平滑和视觉瑕疵所以需要引入GAN或奖励模型来补救。CDM通过连续时间调度让监督更密集均匀通过CDM损失的离轨约束让速度场更平滑从根本上减少了积累误差和瑕疵的产生因此不需要额外的对抗训练或外部奖励信号就能达到较好的视觉效果。Q3CDM蒸馏出来的4步模型在实际使用中能否灵活调整推理步数A可以。由于动态连续调度让学生在训练时接触过各种长度的轨迹加上CDM损失约束了速度场的连续变化率同一个CDM检查点在推理时可以使用3步、4步、6步或8步无需重新训练或额外调参。步数越多生成的图像细节越精细但即使只走3步图像依然连贯且与提示词对应。

更多文章