谷歌:强化学习实现参数化知识重组

张开发
2026/4/20 16:51:16 15 分钟阅读

分享文章

谷歌:强化学习实现参数化知识重组
标题Improving Latent Generalization Using Test-time Compute来源arXiv, 2604.01430v1摘要语言模型LM表现出两种不同的知识获取机制加权学习即在模型权重内编码信息和上下文学习ICL。虽然这两种模式提供互补的优势但权重学习经常努力促进内在知识的演绎推理。我们将这种限制描述为潜在泛化的缺陷反向诅咒是其中的一个例子。相反上下文学习展示了高度鲁棒的潜在泛化能力。为了从权重知识中改进潜在泛化现有方法依赖于训练时间数据增强然而这些技术是特定于任务的可扩展性差并且不能泛化到分布外的知识。为了克服这些缺点这项工作研究了如何教会模型使用测试时计算或“思考”具体地说是为了提高潜在泛化能力。我们使用来自正确性反馈的强化学习RL来训练模型以产生长思想链CoT来提高潜在泛化能力。我们的实验表明这种思维方法不仅解决了许多潜在泛化失败的情况分布知识但也不像增强基线推广到新的知识没有RL进行。然而在纯逆转任务我们发现思考并没有解锁直接知识反演但思维模型的生成和验证能力使其能够获得远高于偶然的表现。验证意味着思维模型仍然远远低于上下文学习的性能。总的来说我们的研究结果建立了测试时思维作为一个灵活的和有前途的方向以提高潜在的泛化LM。️文章简介研究问题如何让大语言模型在不依赖特定任务数据增强的情况下仅通过内部权重知识实现鲁棒的演绎推理和潜在泛化主要贡献论文提出利用强化学习训练模型在测试时进行长链思维推理显著提升了模型对内部知识的潜在泛化能力且具备跨任务迁移性。重点思路知识获取阶段通过在未泄露的合成数据集上进行监督微调将新事实注入预训练模型权重中模拟模型学习新知识的过程。思维引导阶段利用更强的教师模型生成包含聚焦回忆、自我探测及生成验证等策略的黄金思维链数据对学生模型进行微调以引导其产生有效的推理行为。强化学习优化基于正确性反馈使用强化学习算法进一步训练模型使其在面对需要潜在泛化的查询时能自发产生长链条的中间推理过程来提取和组合内部知识。分析总结在分布内测试中经过思维训练的模型在三段论和非严格反转等多跳推理任务上表现优异性能接近甚至等同于拥有完整上下文的上下文学习基线。在分布外测试中该方法展现出强大的泛化性能有效处理未见过的知识结构而传统的训练时数据增强方法因过拟合特定结构在此场景下完全失效。对于纯零跳的严格反转任务思维模型虽无法像上下文学习那样完美解决但通过生成候选并自我验证的策略其表现显著优于不进行推理的模型尽管仍受限于事实自验证的脆弱性。个人观点当模型通过微调学习新知识后对于需要逻辑推导但训练中未直接出现的问题表现非常脆弱。通过对参数化知识的动态检索与重组教会模型“如何思考”比在训练数据中穷举所有逻辑变体更具通用性和扩展性。附录

更多文章