测试时递归思考:无需外部反馈的自我提升

张开发
2026/5/7 20:36:24 15 分钟阅读

分享文章

测试时递归思考:无需外部反馈的自我提升
主题测试时递归思考无需外部反馈的自我提升时间北京时间 周日 2026.3.22 09:00美东时间 周六 2026.3.21 21:00预约视频号b站内容我们提出了 Test-time Recursive Thinking (TRT)一个让大语言模型在推理时不断自我改进的框架无需额外训练也无需外部反馈。TRT 通过在每轮推理中积累知识、调整策略、并利用自生成的验证信号实现迭代式的自我提升。实验结果开源模型在 AIME-25/24 上达到 100% 准确率闭源模型在 LiveCodeBench 最难题目上提升 10.4–14.8 个百分点。核心发现性能提升主要来自迭代知识积累而非简单的并行采样。论文Test-time Recursive Thinking: Self-Improvement without External Feedback链接https://arxiv.org/abs/2602.03094嘉宾庄宇凡加州大学圣地亚哥分校计算机科学五年级博士生导师Jingbo Shang 研究方向主要包括大语言模型推理、Agentic Learning 与跨模态学习关注如何让语言模型具备更强的推理能力、长上下文理解能力以及从连续表征中学习的能力。曾在 Microsoft Research、 Apple、Meta 等实习论文发表于 ICLR、NeurIPS、ACL 、EMNLP等会议。个人网站https://evanzhuang.github.io/主持人吴昊伦Mila McGill 的五年级博士生在 Stanford 从事访问学者研究。其主要研究方向包括可信 AI / 大模型、信息检索、个性化、AI 对齐以及 AI教育等。他曾在 Microsoft Research、Google、DeepMind 多次实习其研究成果被应用于 MSR Alexandria 知识库构建和 Google Shopping 推荐系统。他在多个领域的顶级会议和期刊如 NeurIPS, ICML, ICLR, EMNLP, SIGIR, WWW, CHI, CSCW, TMLR, TKDE 等发表工作并担任评审。入群欢迎加入NICE每周分享交流群可与NICEer唠嗑以及第一时间收到后续NICE分享报告的通知。加群通过小助手认证群内无广告。备注【昵称-单位-方向-NICE入群】NICE介绍NICENexus forIntelligenCE是一个由全球60位一线青年学者共同发起的顶尖AI前沿交流平台。 成立以来我们汇聚海内外300嘉宾通过百余场线上深度分享与线下高规格活动北京/上海/苏州等全网积累超13万关注。目前NICE已构建起覆盖中、美、欧的国际化团队正加速在硅谷、纽约、香港等地落地致力于打造连接学术、产业与未来的全球化AI前沿社区。NICE主页https://nice-nlp.github.ioNICE海外https://nice-intl.github.iob站https://space.bilibili.com/507524288Youtubehttps://www.youtube.com/niceaitalk

更多文章