测试时递归思考：无需外部反馈的自我提升

张开发

• 2026/5/7 20:36:24 • 15 分钟阅读

分享文章

主题测试时递归思考无需外部反馈的自我提升时间北京时间周日 2026.3.22 09:00美东时间周六 2026.3.21 21:00预约视频号b站内容我们提出了 Test-time Recursive Thinking (TRT)一个让大语言模型在推理时不断自我改进的框架无需额外训练也无需外部反馈。TRT 通过在每轮推理中积累知识、调整策略、并利用自生成的验证信号实现迭代式的自我提升。实验结果开源模型在 AIME-25/24 上达到 100% 准确率闭源模型在 LiveCodeBench 最难题目上提升 10.4–14.8 个百分点。核心发现性能提升主要来自迭代知识积累而非简单的并行采样。论文Test-time Recursive Thinking: Self-Improvement without External Feedback链接https://arxiv.org/abs/2602.03094嘉宾庄宇凡加州大学圣地亚哥分校计算机科学五年级博士生导师Jingbo Shang 研究方向主要包括大语言模型推理、Agentic Learning 与跨模态学习关注如何让语言模型具备更强的推理能力、长上下文理解能力以及从连续表征中学习的能力。曾在 Microsoft Research、 Apple、Meta 等实习论文发表于 ICLR、NeurIPS、ACL 、EMNLP等会议。个人网站https://evanzhuang.github.io/主持人吴昊伦Mila McGill 的五年级博士生在 Stanford 从事访问学者研究。其主要研究方向包括可信 AI / 大模型、信息检索、个性化、AI 对齐以及 AI教育等。他曾在 Microsoft Research、Google、DeepMind 多次实习其研究成果被应用于 MSR Alexandria 知识库构建和 Google Shopping 推荐系统。他在多个领域的顶级会议和期刊如 NeurIPS, ICML, ICLR, EMNLP, SIGIR, WWW, CHI, CSCW, TMLR, TKDE 等发表工作并担任评审。入群欢迎加入NICE每周分享交流群可与NICEer唠嗑以及第一时间收到后续NICE分享报告的通知。加群通过小助手认证群内无广告。备注【昵称-单位-方向-NICE入群】NICE介绍NICENexus forIntelligenCE是一个由全球60位一线青年学者共同发起的顶尖AI前沿交流平台。成立以来我们汇聚海内外300嘉宾通过百余场线上深度分享与线下高规格活动北京/上海/苏州等全网积累超13万关注。目前NICE已构建起覆盖中、美、欧的国际化团队正加速在硅谷、纽约、香港等地落地致力于打造连接学术、产业与未来的全球化AI前沿社区。NICE主页https://nice-nlp.github.ioNICE海外https://nice-intl.github.iob站https://space.bilibili.com/507524288Youtubehttps://www.youtube.com/niceaitalk

测试时递归思考：无需外部反馈的自我提升

最新文章

IDEA使用技巧(常用设置、快捷键等)

不止于测光：用STM32F103和GY-30（BH1750）做个智能台灯/植物补光控制器

BitRouter：为AI智能体构建高性能智能路由与安全代理层

终极Pagekit事件系统指南：掌握观察者模式的优雅实现与实战应用

酒店预订系统全栈开发：从业务模型到高并发架构实战

别再让static变量拖累你的Nacos配置更新了！一个SpringContextUtil工具类搞定动态读取

推荐文章

全面掌握AssetRipper：从Unity资源提取到多平台部署的完整指南

LLM个性化评估技术：方法与实战解析

终极AI翻唱生成器AICoverGen：零代码实现专业级声线定制与歌曲翻唱

从流水灯到中断处理：手把手教你用Verilog在FPGA上玩转MIPS模型机

NVIDIA Omniverse Kit 106：云端OpenUSD应用开发指南

开发者如何将ChatGPT无缝集成到本地开发环境与工作流

相关文章

R 4.5新增s2_geometry()函数实测：全球10亿点集距离计算耗时从47分钟降至89秒（附基准测试完整复现代码）

Hotkey Detective：3分钟解决Windows热键冲突的完整指南

5步掌握跨平台数据采集：MediaCrawler智能爬虫工具终极指南

预推免‘赶考’全记录：一周内辗转广州、长沙四场线下复试的真实体验与行程攻略

HALCON 20110 + Python 3.8 环境搭建避坑指南：从dll配置到复杂测量功能实现

算法公平性审查官认证考试全攻略：软件测试从业者的进阶之路

分享文章

更多文章

Pixel Dimension Fissioner效果展示：新闻稿裂变为微博体/小红书风/知乎问答三版本

ADG2128交叉点开关驱动开发与I²C工程实践指南

STM32实战：PWM精准调控直流电机转速

优麒麟/Ubuntu下利用AppImage快速部署Navicat Premium 15的完整指南

ComfyUI-Manager启动控制核心：prestartup_script.py深度解析

MusePublic在计算机网络教学中的艺术可视化应用

用Chisel实现RISC-V寄存器文件：Scala集合类的实战应用

ST7789_LTSM：嵌入式TFT显示驱动框架详解

ACDU自动覆膜驱动单元：嵌入式电机控制与工业传感集成

CVPR2025丨BlueLM-V-3B：移动端多模态大模型的算法与系统协同设计如何实现高效部署？

从编译报错到完美解决：TexStudio与MiKTeX联动故障排查全记录（含xelatex等衍生问题处理）

CLIP-GmP-ViT-L-14实战落地：政务公开文件图像与政策法规库的智能关联