谷歌：强化学习实现参数化知识重组

张开发

• 2026/4/20 16:51:16 • 15 分钟阅读

分享文章

标题Improving Latent Generalization Using Test-time Compute来源arXiv, 2604.01430v1摘要语言模型LM表现出两种不同的知识获取机制加权学习即在模型权重内编码信息和上下文学习ICL。虽然这两种模式提供互补的优势但权重学习经常努力促进内在知识的演绎推理。我们将这种限制描述为潜在泛化的缺陷反向诅咒是其中的一个例子。相反上下文学习展示了高度鲁棒的潜在泛化能力。为了从权重知识中改进潜在泛化现有方法依赖于训练时间数据增强然而这些技术是特定于任务的可扩展性差并且不能泛化到分布外的知识。为了克服这些缺点这项工作研究了如何教会模型使用测试时计算或“思考”具体地说是为了提高潜在泛化能力。我们使用来自正确性反馈的强化学习RL来训练模型以产生长思想链CoT来提高潜在泛化能力。我们的实验表明这种思维方法不仅解决了许多潜在泛化失败的情况分布知识但也不像增强基线推广到新的知识没有RL进行。然而在纯逆转任务我们发现思考并没有解锁直接知识反演但思维模型的生成和验证能力使其能够获得远高于偶然的表现。验证意味着思维模型仍然远远低于上下文学习的性能。总的来说我们的研究结果建立了测试时思维作为一个灵活的和有前途的方向以提高潜在的泛化LM。️文章简介研究问题如何让大语言模型在不依赖特定任务数据增强的情况下仅通过内部权重知识实现鲁棒的演绎推理和潜在泛化主要贡献论文提出利用强化学习训练模型在测试时进行长链思维推理显著提升了模型对内部知识的潜在泛化能力且具备跨任务迁移性。重点思路知识获取阶段通过在未泄露的合成数据集上进行监督微调将新事实注入预训练模型权重中模拟模型学习新知识的过程。思维引导阶段利用更强的教师模型生成包含聚焦回忆、自我探测及生成验证等策略的黄金思维链数据对学生模型进行微调以引导其产生有效的推理行为。强化学习优化基于正确性反馈使用强化学习算法进一步训练模型使其在面对需要潜在泛化的查询时能自发产生长链条的中间推理过程来提取和组合内部知识。分析总结在分布内测试中经过思维训练的模型在三段论和非严格反转等多跳推理任务上表现优异性能接近甚至等同于拥有完整上下文的上下文学习基线。在分布外测试中该方法展现出强大的泛化性能有效处理未见过的知识结构而传统的训练时数据增强方法因过拟合特定结构在此场景下完全失效。对于纯零跳的严格反转任务思维模型虽无法像上下文学习那样完美解决但通过生成候选并自我验证的策略其表现显著优于不进行推理的模型尽管仍受限于事实自验证的脆弱性。个人观点当模型通过微调学习新知识后对于需要逻辑推导但训练中未直接出现的问题表现非常脆弱。通过对参数化知识的动态检索与重组教会模型“如何思考”比在训练数据中穷举所有逻辑变体更具通用性和扩展性。附录

谷歌：强化学习实现参数化知识重组

最新文章

M2LOrder开源大模型部署案例：中小企业低成本构建自有情感分析平台

为什么LTE/5G手机上传视频更省电？聊聊DFT-S-OFDM这个‘幕后功臣’

抖音内容自动化管理：从手动复制到智能采集的技术革命

Jenkins定时任务从入门到精通：手把手教你配置H * * * *和每月1号凌晨备份

保姆级教程：手把手教你用setWave命令生成OpenFOAM v8波浪算例的初始场

Auto DL 平台免SSH实战：从Jupyter网页终端到模型部署的保姆级避坑指南

推荐文章

《前沿洞察：AI 面试季、Agent 开发痛点与人机协作架构的未来》

别再插错线了！一张图看懂USB 2.0/3.0线序与颜色定义（附ZYNQ开发板实测）

别再只靠复位了！Xilinx FIFO IP核清空的三种实战方法（附Verilog代码）

如何在 CGO 中正确处理带 const char- 参数的 C 回调函数

JavaScript的Symbol.unscopables：影响with语句行为的属性

一次由Nginx的proxy_pass尾随斜杠引发的重定向循环

相关文章

如何为AMD 780M APU解锁2-3倍AI性能？ROCmLibs-for-gfx1103终极优化指南

企业内网必看：用U盘搞定Ubuntu服务器Docker离线部署（含依赖树分析）

OpenCode智能编程助手全面部署指南：从环境搭建到高级应用

大语言模型背后的秘密：从预训练到微调，揭秘LLM高效训练的核心技术（含QLoRA/ZeRO实战）

RBDdimmer：嵌入式AC相位调光库详解

新手零失败指南：利用快马ai轻松完成openclaw的ubuntu环境搭建

分享文章

更多文章

Phi-4-mini-reasoning入门必看：面向推理任务的轻量级大模型快速上手

激光引导无焦系统的分析与设计

启发式算法WebApp实验室：从搜索策略到群体智能的能力进阶（六）

雀魂牌谱屋完整指南：如何通过数据分析提升麻将竞技水平

EtherCAT从站开发避坑：你的ESI文件里FMMU和SM通道配对了吗？

告别复杂建模！3D Face HRN人脸重建模型一键部署与使用全攻略

深度剖析AI自我进化：技术内核、迭代路径与未来边界

免费开源！惠普游戏本硬件控制神器OmenSuperHub完全指南

抖音去水印视频下载神器：3分钟搞定无水印批量下载的终极方案

OpenWrt网络性能优化：如何通过turboacc插件提升路由器转发效率300%

从游戏场景到虚拟试衣：SPADE模型在AIGC落地中的5个实战应用与避坑指南

Vitis 2024.1新手上路：手把手教你为Zynq-7020开发板导入第一个串口HelloWorld例程