华盛顿大学研究发现“乱码前缀“让AI推理能力大幅提升

张开发
2026/5/13 10:39:17 15 分钟阅读

分享文章

华盛顿大学研究发现“乱码前缀“让AI推理能力大幅提升
这项由圣路易斯华盛顿大学研究团队完成的研究以预印本形式发布于2026年5月论文编号为arXiv:2605.05566有兴趣深入了解的读者可通过该编号查询完整论文。你有没有遇到过这样的场景一道难题百思不得其解结果换了张纸、换个地方坐下来脑子突然就转开了或者跟朋友聊着聊着对方说了一句跟问题毫不相关的闲话你反而突然想通了这种转换环境激发灵感的现象在人类的日常生活中极为常见。现在华盛顿大学的研究团队发现AI大语言模型也就是像ChatGPT这类会推理的AI在解题时竟然也存在类似的现象——而且用一段毫无意义的拉丁文乱码当开场白居然真的能让AI解出原本百做不出的难题。这个发现听起来像是魔法甚至有点荒诞但背后有一套严密的逻辑支撑。研究团队将这个方法命名为Lorem Perturbation for Exploration简称LOPE意思大致是用Lorem占位文扰动来拓展探索。这项研究的核心问题是解决AI在强化学习训练过程中频繁遭遇的一个顽固障碍——当AI对一道题完全束手无策时它的训练就会陷入停滞白白浪费大量计算资源。而LOPE提出的解法简单到近乎离奇在题目前面贴上一段随机拼凑的拉丁语废话然后再让AI重新作答。一、AI训练中的死局当所有尝试都失败时要理解这项研究的意义得先了解AI是怎么学会推理的。目前主流的做法叫做强化学习具体说是一种叫GRPO组相对策略优化的技术。可以把这个过程想象成一位学生在备考老师出一道题学生同时写出好几份不同的答案然后通过对比这些答案的优劣来判断哪种思路更好并据此调整下次作答的方式。这里有个关键机制——如果学生的多份答案中至少有一份对了老师就能从对错的对比中给出有意义的反馈但如果这几份答案全都错了对比就失去了意义老师无法提供任何有价值的指导这道题的训练就等于白做了。研究团队把这种情况叫做零优势问题。当AI面对一道特别难的题它一连生成的好几个答案全都错误时相对优势全部归零训练信号彻底消失。这对整个训练流程是一种很大的浪费——不仅这道题的训练资源打了水漂连带整个批次的计算成本都浪费了。面对这个问题最直接的补救方法是多试几次既然一次生成8个答案全错了那就再生成24个总有概率撞上一个对的。不少研究也沿着这条路走探索如何聪明地分配重试预算比如对难题多分配尝试次数。但问题在于对于那些真正超出AI当前能力范围的题目无论重试多少次样本都从同一个思路池子里捞重复失败的概率依然很高。就像一个学生在同一张草稿纸上反复演算同一种思路换再多张同样的纸也没用因为卡点根本不在次数上。华盛顿大学的研究团队换了一个角度既然问题是AI陷在了同一条思路里跳不出来能不能通过改变环境——也就是改变输入的上下文——来迫使AI走一条不同的路二、换个环境的实验乱码竟然有效在正式提出LOPE之前研究团队先做了一个颇为有趣的初步实验目的是验证他们的核心猜想改变输入上下文能否让AI走出原有的思维定势他们设计了三种条件进行对比。第一种是正常作答用标准的题目提示词温度参数设为0.6温度可以理解为AI作答时的发散程度越高越随机。第二种是提高温度参数到1.2让AI生成更随机的答案这是传统上鼓励AI多样化探索的方式。第三种则是在正常提示词前面贴上一段随机拼凑的Lorem Ipsum文字——也就是那种排版设计领域常用的拉丁文占位文本比如Lorem ipsum dolor sit amet, consectetur adipiscing elit完全没有实际语义——然后用正常温度0.6作答。Lorem Ipsum是一种特殊的文字它模仿自然语言的词长分布和句子结构看起来像一篇拉丁文但实际上不传达任何意思。每次使用时研究团队从63个拉丁词汇里随机抽取组合生成一段100到300个词元长度的随机序列贴在题目前面。实验在500道数学题上进行使用的是Qwen3-1.7B-Base这个AI模型。结果用维恩图也就是那种展示不同集合交集的圆圈图来呈现三种方法各自独立解出了多少道题又有多少道是共同解出的。结果相当出人意料。Lorem扰动的方法不仅整体解题数量不输其他方法更关键的是它独立解出了大量两种正常方法都解不出来的题目——这说明它确实在探索不同的思路空间。在352道被认定为难题正常方法连8次尝试都全部失败的子集上这个差异更加明显Lorem扰动方法独立解出了50道连高温随机采样都无法解决的题目。换句话说这种废话前缀真的打开了AI原本进不去的推理通道。为了进一步理解背后的机制研究团队还分析了三种方法生成的答案在熵可以理解为生成过程中的不确定程度和困惑度模型对自己输出内容感到困惑的程度上的差异。正常方法生成的答案大量集中在极低熵、极低困惑度的区间说明AI高度自信但也高度保守。高温方法的熵和困惑度都急剧升高虽然探索空间变大了但胡言乱语的概率也随之大涨答案质量下降明显。而Lorem扰动方法的熵只是温和地向右偏移困惑度也仅从1.121微升至1.157——它在不显著牺牲回答质量的前提下适度拓宽了AI的生成分布。这就好比一个厨师正常状态下总是按固定食谱烹饪温度过高时开始乱放调料而Lorem扰动的作用像是让厨师在开始前随机听了一段既不是烹饪课也不是噪音的异国音乐——思路开阔了一点但技艺依然在线。三、LOPE的运作方式一套经过精心设计的训练流程验证了这个现象之后研究团队着手把它变成一套可以真正用于AI训练的完整方法也就是LOPE框架。整个流程可以分为几个紧密衔接的环节每个环节都有其独到的设计考量。训练开始时AI像往常一样对每道题生成一组答案默认是8个。如果这8个答案里至少有一个正确就直接按标准流程训练不需要做任何额外处理。只有当8个答案全部错误时LOPE才会介入在原始题目提示词前随机拼接一段Lorem Ipsum序列然后用这个Lorem扰动提示词重新生成24个新答案看能不能在这24次里找到正确的。一旦在24次重采样中找到了正确答案下一步是把这些成功的答案和原来失败的答案混在一起拼成一个用于训练的组合批次。规则是从成功的答案里随机选取若干个替换掉原来同等数量的失败答案但始终保留至少一个失败答案。这个至少保留一个失败答案的设计非常关键——只有答案组里同时存在成功和失败的样本相对优势才不为零训练信号才有意义。这里有一个微妙的技术问题。这些重采样得到的成功答案是AI在Lorem扰动提示词下生成的但训练时需要把它们当作在正常提示词下生成的来处理否则训练和推理时的上下文不一致会带来偏差。这种说谎式配对在技术上叫做伪推演——把答案和正常提示词配对假装它是在正常条件下产生的。为了纠正由此产生的偏差训练时需要用一个叫重要性采样比的数学系数来修正梯度权重确保训练方向不跑偏。此外LOPE还移除了GRPO标准流程中的KL散度正则项——这个项的作用是限制AI偏离原始模型太远但它同时也在压制Lorem扰动所能带来的分布多样性因此在这套框架下反而适得其反。四、训练信号塑形让稀有的成功更值钱仅仅有LOPE的基本框架还不够。研究团队发现即便重采样找到了正确答案训练效果有时依然不理想原因出在两个地方。第一个问题是偏离策略训练导致梯度消失。正常来说AI在训练时会强化概率高的正确答案、削弱概率低的错误答案。但对于那些通过Lorem扰动才能找到的答案AI在正常提示词下的概率往往极低——这些答案对AI来说太陌生了导致训练权重被系统性地压低珍贵的成功经验反而没被充分学习。为此研究团队引入了一个策略塑形机制用一个特殊的函数形式是x除以x加上一个小常数γ来调整每个词元的训练权重。这个函数的特性是对于AI原本就很自信概率高的词元权重被适度压低对于AI感到陌生概率低的词元权重被适度提升。这样一来那些来自另辟蹊径的成功答案里的关键步骤就不会因为AI不熟悉而被忽略而是得到了更多的学习机会。从数学上可以证明这个函数把训练梯度的峰值从高概率区移到了低概率区同时保证峰值不会无限增大训练过程更加稳定。第二个问题是优势估算偏低。在GRPO的框架里优势是通过同组答案内部对比计算出来的正确答案的优势是它的得分减去整组平均分再除以整组的标准差。如果训练批次里大部分是失败答案、只有少数几个成功答案那么这些成功答案的优势值会被系统性地低估——因为计算时只看到了被选中的那几个答案忽略了还有更多被丢弃的失败答案。这就好比一场考试里只有你一个人及格但排名时却只和另外几个分数最低的人比较结果你的排名看起来也没多高。优势塑形机制的解法是在计算优势时把所有原始的8个失败答案和重采样的24个答案全部纳入统计然后只对选中的那组答案实施梯度更新。这样统计基础更大、更真实成功答案的优势值能被放大2到5倍有时甚至更多——通过实际计算在G8、G24的配置下当重采样成功数在1到7之间时优势放大倍数从2.1倍到5.0倍不等。这些稀有的成功经验因此在训练中获得了它们本应得到的重视。五、实验结果三个模型、五项测试全线提升研究团队在三个不同规模的AI模型上进行了全面测试参数量为17亿的Qwen3-1.7B-Base、40亿的Qwen3-4B-Base以及70亿的Qwen2.5-Math-7B。评测的基准测试覆盖从基础到顶尖难度的数学推理任务包括MATH-500500道数学竞赛题、GSM8K小学数学文字题、AMC美国数学竞赛、AIME 2024和AIME 2025美国最具挑战性的高中数学竞赛。在17亿参数的模型上LOPE加上训练信号塑形后的平均得分达到39.82比标准GRPO37.03高出近3分比多试几次但不改提示词的朴素重采样方法38.16也高出超过1.6分。在40亿参数的模型上效果更为显著平均得分53.99比标准GRPO49.37高出4.62分朴素重采样方法在这个模型上甚至不升反降48.95低于标准GRPO而LOPE则反向大幅超越。研究团队分析认为朴素重采样在移除KL约束后容易出现策略漂移——AI因为失去了约束而开始走偏而LOPE通过引入高质量的多样性答案反而起到了隐性的正则化作用。在70亿参数的模型上不带训练信号塑形的LOPE效果与朴素重采样相差不多但加入训练信号塑形后得分从标准GRPO的47.68大幅跃升至53.88提升超过6.2分是三个模型中提升最大的。这个模式说明对于能力更强的模型Lorem扰动确实能找到更多成功答案但要把这些成功经验高效转化为训练效益训练信号塑形这道工序是不可缺少的。从训练过程的动态追踪来看LOPE在整个200步训练周期内始终维持着更高的题目级成功率即在24次重采样中至少找到一道题正确答案的比例而朴素重采样和高温重采样的这一指标明显偏低。在答案级准确率每次重采样平均正确率上LOPE和朴素重采样差距不大但题目覆盖面的持续优势意味着LOPE能让更多种类的难题获得有效训练信号而不是反复优化同一批AI已经快能做对的题目。六、什么样的废话才算好废话发现Lorem Ipsum有效之后研究团队继续追问为什么偏偏是它是拉丁语本身的特殊性还是某种更本质的属性在起作用为此他们系统测试了七种不同类型的扰动方式。他们测试的方法涵盖了从有点像语言到完全是噪音的整个谱系。随机假英语用常见英文词汇随机组合成伪句子。随机ASCII直接随机抽取可打印字符。随机词元从AI词汇表里随机抽取词元。英语高频词单元模型用英文语料库中最常见的50个词随机组合。拉丁语高频词单元模型用拉丁语语料库中最常见的50个词随机组合。拉丁语三元语法模型用在拉丁语语料库上训练的三元语法模型生成更连贯的随机拉丁语句子。过滤真实拉丁语则直接使用真实的拉丁语文本但过滤掉包含Lorem Ipsum标准开头的段落并进一步筛选困惑度在20到30之间的片段。评测的核心指标是这些文本在AI眼中的困惑度——也就是AI模型觉得这些文字有多不像正常语言。数值越低说明越接近AI熟悉的语言模式数值越高说明越离谱。问题文本本身的困惑度均值是4.82是基准参考线。Lorem Ipsum的均值是25.12是所有人工生成扰动里最低的而且标准差只有2.84每次生成的干扰强度高度一致。拉丁语高频词的均值是51.32过滤后的真实拉丁语是46.09英语高频词是85.30拉丁语三元语法模型是91.45随机ASCII跃升至492.93随机假英语更是飙升至2429.9而随机词元的均值达到惊人的46万完全脱离了语言的范畴。实验结果呈现出一个非常清晰的规律困惑度越低扰动效果越好困惑度越高扰动效果越差甚至有害。具体来说LOPE39.82、过滤真实拉丁语39.85和拉丁语高频词39.67这三个困惑度最低的方法取得了最好的平均分英语高频词38.52、拉丁语三元语法模型38.88居中随机ASCII38.19和随机假英语38.55效果欠佳随机词元37.65甚至比不做任何扰动的朴素重采样38.16还要差。通过分析不同扰动方式下AI对问题文本的理解程度分别测量了词元层面的熵分布和句子层面的语义表示偏移研究团队进一步确认困惑度高的扰动会破坏AI对题目本身的理解导致即便找到了答案那个答案也是在误解题意的前提下产生的反而有害。而像Lorem Ipsum这样困惑度适中的拉丁语扰动在改变AI处理题目的方式的同时并不损害AI对题目核心内容的正确理解——这一点在语义表示的可视化图中体现得非常直观大多数扰动下AI对题目的理解聚集在同一个位置只有随机词元的理解点远远漂移开去。此外研究团队还注意到一个有趣的对比英语高频词的困惑度85.30比拉丁语三元语法模型91.45还要略低但最终表现反而更差。对此研究团队的解释是英语词汇会和题目本身的英语内容产生干扰让AI混淆前缀信息和题目信息从而影响推理质量。拉丁语由于天然与英语题目的语境相互隔离成为一种干扰力度足够但不破坏理解的理想扰动载体。由此总结出有效扰动的两个关键特征其一使用拉丁语系词汇避免与英语推理上下文产生语义干扰其二保持较低的困惑度确保扰动后的题目对AI来说依然是可理解的任务。Lorem Ipsum恰好在这两点上都做到了极致这就是它有效的本质原因。说到底这项研究揭示的是一件有点反直觉却颇为耐人寻味的事对AI推理能力的提升有时候不是靠给它更多有用的信息而是靠给它一段无意义的背景噪音来打破它自己思维上的惯性锁定。这和人类在遇到创意瓶颈时去散步、听音乐、换个环境的本能行为有着某种奇妙的相似之处。当然这项研究也有其局限性研究团队在论文中坦诚地指出自动生成的随机拉丁语序列无法保证完全不包含不当内容而过强的扰动有时会导致AI输出失控乃至产生有害内容。这些安全层面的挑战是后续需要认真对待的课题。对于那些关注AI训练效率的读者来说这项工作提供了一个成本极低、操作极简单、但效果非常实在的改进思路。对于对AI感兴趣的普通读者来说它也提醒我们AI的推理行为远比我们直觉上认为的更加微妙——一段废话在对的地方说出来竟然真的有用。有兴趣探究完整技术细节的读者可以通过arXiv编号2605.05566查阅原论文。QAQ1LOPE方法在训练AI时具体是怎么操作的ALOPE的操作流程是这样的AI先用正常提示词对一道题生成8个答案如果全部答错就在题目前面随机贴一段Lorem Ipsum拉丁文然后用这个新提示词再生成24个答案。如果这24个里找到了正确答案就把成功的答案和原来的失败答案混合成一组进行训练同时用专门的数学修正系数来确保训练方向准确。Q2为什么拉丁文乱码能帮AI解出更难的题目A核心原因是AI在解题时容易陷入固定的思路模式而改变输入上下文能让AI走出这种惯性。拉丁文乱码的效果恰到好处困惑度足够低不会破坏AI对题目的理解又是非英语词汇不会干扰英语题目本身的语义。这种不太陌生但有点不同的前缀促使AI用轻微不同的角度处理问题从而发现原本没想到的解题路径。Q3LOPE在不同规模的AI模型上效果相同吗A不完全相同。在17亿参数模型上平均提升约3分40亿参数模型上提升约4.6分70亿参数模型上在加入训练信号塑形后提升最大达到约6.2分。总体趋势是模型越大、能力越强LOPE配合训练信号塑形带来的收益越明显因为更大的模型能从重采样中找到更多成功答案但需要配套的训练技术才能充分利用这些成功经验。

更多文章