陶哲轩First Proof项目二批评测:7道题AI解答达发表标准,各系统成本耗时差异大

张开发
2026/6/13 14:31:26 15 分钟阅读

分享文章

陶哲轩First Proof项目二批评测:7道题AI解答达发表标准,各系统成本耗时差异大
【导语陶哲轩主导的First Proof项目第二批评测结果出炉本次评测提高标准采用双盲同行评议机制4套AI系统参与答题7道题的AI解答达学术发表标准各系统成本与耗时差异明显后续8 - 10月将开展第三批评测。】评测升级双盲评审严筛AI数学能力First Proof项目第二批评测延续选取10道前沿研究级数学新题让AI系统作答的核心规则且相比第一次评测进一步提高标准。此次引入双盲同行评议机制由项目组统一操作测试30位数学专家像期刊审稿一样盲审打分评审只能看到证明稿件不知作者是AI还是人类所有证明按人类数学论文标准分为四档审核。题目多元覆盖十大数学研究方向本次的10道问题覆盖可计算理论、离散几何、离散概率、度量几何、随机偏微分方程、格论、组合拓扑、拟阵与热带几何、代数组合、冯・诺依曼代数十大方向且每道题都从未在网上或期刊公开过证明出题人包括顶尖数学家Larry Guth。系统比拼各有优劣成本耗时不同参与评测的4套AI系统各有特点。System A以GPT - 5.5 Pro为核心底座兼容多款大模型协同运算在P5随机偏微分方程题中跳出人类常规思路给出全新证明。System B由加州大学洛杉矶分校团队研发基于GPT - 5.5 Pro搭建。System C是OpenAI官方原生模型ChatGPT 5.5 Pro运行5.8小时耗时最短10道题总花费117美元性价比最高但原创能力偏弱。System D是普林斯顿大学团队推出的推理系统依托Gemini 3.1 Pro预览版运行花费1014美元、运行7.8小时投入产出比较低。苏黎世联邦理工的System A解题能力强但总费用达3186美元单题最高花费951美元运行22.9小时陶哲轩所在UCLA团队系统成本最高共计4799美元运行23.1小时稳定性尚可却未实现能力突破。后续展望8 - 10月开展第三批评测陶哲轩认为本轮整体表现未达预期现存问题将作为后续优化方向。后续安排明确8 - 10月将开展First Proof项目第三批正式评测评测规则沿用第二批次标准。编辑观点First Proof项目评测为AI数学能力提供了严格检验虽此次未达预期但各系统展现出不同特点后续评测值得关注有望推动AI在数学领域的发展。

更多文章