【第三周】论文精读：Aria: An Agent for Retrieval and Iterative Auto-Formalization via Dependency Graph

张开发

• 2026/5/7 14:28:50 • 15 分钟阅读

分享文章

【第三周】论文精读：Aria: An Agent for Retrieval and Iterative Auto-Formalization via Dependency Graph

前言自动形式化Auto-formalization是将自然语言数学定理转化为形式化证明语言如 Lean 4的关键步骤也是实现自动化数学发现与验证的基石。然而现有大语言模型LLM在处理研究级数学猜想时常因幻觉Hallucination、语义失配以及无法合成新定义而失败。来自北京大学与 IQuest Research 的团队提出了Aria一个模拟人类专家推理过程的智能体系统。Aria 创新性地采用两阶段思维图Graph-of-Thought, GoT流程首先递归分解陈述构建依赖图然后自底向上合成形式化代码。为确保语义正确性作者还推出了AriaScorer一个基于检索的项级语义检查器。实验显示Aria 在 ProofNet 上达到68.5%的最终准确率在极具挑战性的同调猜想数据集上更是取得了42.9%的突破性成绩其他模型均为 0%确立了该领域的 SOTA 地位。论文基本信息项目内容论文标题Aria: An Agent for Retrieval and Iterative Auto-Formalization via Dependency Graph核心方法名Aria (GoT-based Auto-Formalization Agent)作者Hanyu Wang, Ruohan Xie, Yutong Wang, et al.所属机构Peking University, IQuest Research, Renmin University of China发表年份2026 (ICLR Conference Paper)核心领域Auto-formalization, Graph-of-Thought, Retrieval-Augmented Generation (RAG), Semantic Verification关键数据集ProofNet, FATE-H/X, Homological Conjectures (14 real-world conjectures)代码开源GitHub - frenzymath/jixia (相关工具) 研究背景与痛点1. 现有方法的三大致命缺陷静态知识局限LLM 的训练数据是静态的无法跟上 Mathlib 库的快速迭代常生成不存在或已过时的 API幻觉。缺乏合成能力研究级数学常涉及库中未定义的新概念。现有“一步生成”方法无法自发合成这些缺失的定义导致任务直接失败。语义检查失效现有的语义检查器如 LeanScorer过度依赖文本相似度难以检测深层的语义偏差如参数顺序错误、隐含前提遗漏。2. Aria 的核心洞察模仿专家思维人类数学家不会一次性写出复杂定理而是先拆解概念依赖再逐个定义最后组装。Aria 通过GoT模拟这一过程。检索增强合成对于库中存在的概念通过 RAG 精准定位对于不存在的概念利用已定义的子概念进行自底向上的合成。项级语义锚定语义检查必须基于 Mathlib 中术语的真实定义而非表面文本。️ 核心方法Aria 架构详解Aria 系统由两个主要部分组成GoT 自动形式化流水线和AriaScorer 语义检查器。1. 思维图GoT自动形式化流水线该流程分为两个阶段形成一个闭环的推理结构阶段一GoT 分解Top-Down Decomposition依赖图构建将输入的自然语言陈述拆解为概念节点如“Noetherian Ring”, “Cohen-Macaulay Module”构建有向无环图DAG。检索与锚定Grounding对每个节点调用LeanSearch实时更新的 Mathlib 搜索引擎检索候选定义。LLM 作为推理器从候选列表中选择最匹配的规范定义。若找不到匹配项该节点被标记为“待合成”并触发对其子节点的递归分解直到所有叶子节点都能在 Mathlib 中找到。阶段二GoT 合成Bottom-Up Synthesis自底向上生成从依赖图的叶子节点开始利用已检索或已合成的子节点代码作为上下文生成当前节点的 Lean 定义。编译器在环反思Compiler-in-the-Loop Reflection生成的代码立即送入 Lean 编译器检查。若编译失败将错误信息反馈给 LLM 进行修正最多尝试 16 次。只有编译通过的代码才会被用于父节点的合成。新定义合成对于标记为“待合成”的节点LLM 基于其子节点的定义创造性地编写新的 Lean 结构或类。2. 语义正确性模块AriaScorer为解决“编译通过但语义错误”的问题作者设计了 AriaScorer子任务分解将非形式化陈述和形式化陈述都分解为原子假设和结论。项级语义锚定Term-Level Grounding使用静态分析工具jixia提取形式化代码中的所有 Lean 术语。从 Mathlib 数据集中检索这些术语的权威定义、类型和非形式化描述。将这些真实定义注入到 LLM 的提示词中强制模型基于真实语义而非表面文本进行评估。模糊积分评分综合各子任务的匹配度完美匹配/轻微不一致/严重不一致输出 0-1 的分数超过阈值则判定为正确。实验结果与分析作者在多个基准测试中评估了 Aria涵盖了从本科数学到前沿研究猜想的广泛难度。1. 全面超越 SOTA (End-to-End Performance)ProofNet(本科级): Aria 取得68.5%的最终准确率编译语义远超 Goedel-V2 (32.0%) 和 Gemini-2.5-Pro (27.8%)。FATE-X(博士/研究级): Aria 达到44.0%而最强基线 Goedel-V2 (pass128) 仅为 24.0%。同调猜想(Conjectures): 这是最具挑战性的测试集14 个真实的交换代数猜想。Aria:42.9%(成功形式化 6 个)。其他所有模型:0%。意义证明了 Aria 是唯一能处理未知概念合成与研究级逻辑依赖的系统。2. AriaScorer 的有效性验证在 FATE-X 数据集上的语义检查对比准确率: AriaScorer 达到89.9%(α0)显著高于 LeanScorer (71.0%) 和回译法 (33.3%)。查全率(Recall): AriaScorer 高达96.2%能有效识别出那些“编译通过但语义错误”的隐蔽案例。关键发现项级锚定能检测出参数顺序颠倒、隐含前提遗漏如 UFD 必须是整环以及术语定义偏差等深层错误。3. 消融实验关键发现反射机制(Reflection): 移除后FATE-X 最终准确率从 44% 暴跌至14%证明多轮自我修正是 syntactic correct 的关键。GoT 规划器: 移除后Conjectures 成功率从 42.9% 降至7.1%证明结构化分解对于处理新概念至关重要。RAG 模块: 移除后Conjectures 成功率直接归零 (0%)说明没有实时检索LLM 的静态知识完全无法应对研究级数学。主要创新点总结思维图驱动的形式化范式首次将Graph-of-Thought应用于自动形式化通过“分解 - 检索 - 合成”的闭环成功解决了研究级数学中新概念合成的难题。项级语义锚定检查器 (AriaScorer)突破了传统基于文本相似度的检查局限通过检索 Mathlib 权威定义注入上下文实现了对深层语义一致性的精准验证。编译器在环的深度反思将 Lean 编译器作为实时反馈信号结合多轮迭代修正大幅提升了代码的语法鲁棒性即使在复杂依赖下也能保证编译通过。研究级数学的突破在真实数学猜想如同调猜想上实现了从 0 到 1 的突破证明了 AI 辅助前沿数学研究的可行性。⚠️ 局限性与挑战计算成本高GoT 流程和多次反射导致每个问题平均需要17.7 次LLM 调用推理延迟较高。依赖外部工具系统强依赖 LeanSearch 和 jixia 等外部工具的稳定性与更新频率。错误传播风险虽然罕见但如果中间层定义出现语义错误且未被检查器发现可能会传播到最终定理论文中提到仅发现 1 例此类情况。领域泛化虽然在代数和拓扑上表现良好但在极度依赖特定领域公理系统的分支中仍需进一步验证。总结与工程建议《Aria》展示了将结构化推理GoT、实时检索RAG与严格验证Compiler Semantic Scorer相结合的巨大威力。它不仅是自动形式化的 SOTA也为构建高可靠性 AI 科学助手提供了蓝图。对开发者的实战建议引入依赖图规划处理复杂任务时不要试图一步生成。先让 LLM 画出概念依赖图识别哪些是已知库函数哪些需要自定义再按顺序生成。实施项级语义检查在验证环节不要只靠 LLM“凭感觉”判断。务必检索权威定义如文档、API 说明并注入 Prompt让 LLM 基于事实进行比对这能大幅减少幻觉漏检。编译器/解释器在环对于代码生成任务必须建立生成 - 编译/运行 - 报错反馈 - 修正的闭环。单次生成的成功率远不如带反馈的迭代。动态检索增强对于快速迭代的知识库如代码库、法律条文、数学库必须接入实时检索引擎不能仅依赖模型的预训练知识。容忍冗余以换取正确性在研究级任务中显式地定义中间引理和结构即使库中可能有隐含定义往往比隐式引用更稳健有助于类型检查和后续证明。一句话总结Aria 通过“思维图拆解依赖、检索增强填补知识、项级锚定确保语义”的三位一体策略攻克了研究级数学自动形式化的堡垒是构建高可信科学 AI 的里程碑式工作。参考文献[1] Wang H, Xie R, Wang Y, et al. Aria: An Agent for Retrieval and Iterative Auto-Formalization via Dependency Graph[C]//The Thirteenth International Conference on Learning Representations (ICLR). 2026.

【第三周】论文精读：Aria: An Agent for Retrieval and Iterative Auto-Formalization via Dependency Graph

最新文章

AISMM模型×敏捷开发：如何在2人算法团队中跑通“假设-验证-迭代”飞轮（含可复用Checklist）

如何快速提升魔兽争霸3游戏体验：终极优化指南

Showdown.js 技术深度解析：现代 Web 应用中的 Markdown 处理架构

Calibre Do Not Translate My Path：解决中文电子书路径乱码的终极方案

别再只会用DAQ助手了！手把手教你用LabVIEW DAQmx函数搭建高性能数据采集系统

从‘吉占’到‘最优停止’：一个游戏技能背后的经典数学问题

推荐文章

全面掌握AssetRipper：从Unity资源提取到多平台部署的完整指南

LLM个性化评估技术：方法与实战解析

终极AI翻唱生成器AICoverGen：零代码实现专业级声线定制与歌曲翻唱

从流水灯到中断处理：手把手教你用Verilog在FPGA上玩转MIPS模型机

NVIDIA Omniverse Kit 106：云端OpenUSD应用开发指南

开发者如何将ChatGPT无缝集成到本地开发环境与工作流

相关文章

R 4.5新增s2_geometry()函数实测：全球10亿点集距离计算耗时从47分钟降至89秒（附基准测试完整复现代码）

Hotkey Detective：3分钟解决Windows热键冲突的完整指南

5步掌握跨平台数据采集：MediaCrawler智能爬虫工具终极指南

预推免‘赶考’全记录：一周内辗转广州、长沙四场线下复试的真实体验与行程攻略

HALCON 20110 + Python 3.8 环境搭建避坑指南：从dll配置到复杂测量功能实现

算法公平性审查官认证考试全攻略：软件测试从业者的进阶之路

分享文章

更多文章

威纶通触摸屏与台达变频器485通讯：无需PLC的奇妙之旅

Flink vs Spark：大数据流处理框架深度对比

phpStudy+红日靶场搭建内网渗透环境：信息收集技巧与常见误区

从官网下载到命令行验证：手把手教你为Windows10配置MySQL 8.0开发环境

PyTorch实现指南：手把手教你写可复用的CAB通道注意力模块（含残差连接版本）

Photoshop与EasyX结合：高效生成掩码图实现游戏透明贴图

机械臂三自由度自适应神经网络控制：基于径向基函数逼近动力学与滞回非线性的高增益观测器

Windows下5分钟搞定Syslog服务器搭建（含TCP/UDP配置避坑指南）

月省2.9万运营成本！矩阵跃动龙虾机器人，全自动GEO运营降本增效

CameraX实战：手把手教你实现双指缩放与点击对焦（附完整Demo）

do{...}while(0)在嵌入式C中的宏安全与结构化编程实践

cv_resnet18_ocr-detection WebUI使用全攻略：从上传图片到导出结果