陶哲轩First Proof项目二批评测：7道题AI解答达发表标准，各系统成本耗时差异大

张开发

• 2026/6/13 14:31:26 • 15 分钟阅读

分享文章

陶哲轩First Proof项目二批评测：7道题AI解答达发表标准，各系统成本耗时差异大

【导语陶哲轩主导的First Proof项目第二批评测结果出炉本次评测提高标准采用双盲同行评议机制4套AI系统参与答题7道题的AI解答达学术发表标准各系统成本与耗时差异明显后续8 - 10月将开展第三批评测。】评测升级双盲评审严筛AI数学能力First Proof项目第二批评测延续选取10道前沿研究级数学新题让AI系统作答的核心规则且相比第一次评测进一步提高标准。此次引入双盲同行评议机制由项目组统一操作测试30位数学专家像期刊审稿一样盲审打分评审只能看到证明稿件不知作者是AI还是人类所有证明按人类数学论文标准分为四档审核。题目多元覆盖十大数学研究方向本次的10道问题覆盖可计算理论、离散几何、离散概率、度量几何、随机偏微分方程、格论、组合拓扑、拟阵与热带几何、代数组合、冯・诺依曼代数十大方向且每道题都从未在网上或期刊公开过证明出题人包括顶尖数学家Larry Guth。系统比拼各有优劣成本耗时不同参与评测的4套AI系统各有特点。System A以GPT - 5.5 Pro为核心底座兼容多款大模型协同运算在P5随机偏微分方程题中跳出人类常规思路给出全新证明。System B由加州大学洛杉矶分校团队研发基于GPT - 5.5 Pro搭建。System C是OpenAI官方原生模型ChatGPT 5.5 Pro运行5.8小时耗时最短10道题总花费117美元性价比最高但原创能力偏弱。System D是普林斯顿大学团队推出的推理系统依托Gemini 3.1 Pro预览版运行花费1014美元、运行7.8小时投入产出比较低。苏黎世联邦理工的System A解题能力强但总费用达3186美元单题最高花费951美元运行22.9小时陶哲轩所在UCLA团队系统成本最高共计4799美元运行23.1小时稳定性尚可却未实现能力突破。后续展望8 - 10月开展第三批评测陶哲轩认为本轮整体表现未达预期现存问题将作为后续优化方向。后续安排明确8 - 10月将开展First Proof项目第三批正式评测评测规则沿用第二批次标准。编辑观点First Proof项目评测为AI数学能力提供了严格检验虽此次未达预期但各系统展现出不同特点后续评测值得关注有望推动AI在数学领域的发展。

更多文章

前端开发 2026/6/13 14:30:37

COFDM 图传设备与自组网模块，构建应急通信新生态

在应急救援、野外巡检、边防安防等复杂场景中，传统通信设备常因遮挡、无基站、信号干扰等问题陷入 “失联” 困境。COFDM 图传设备与 COFDM 自组网模块凭借非视距传输、无中心组网、强抗干扰三大核心优势，成为破解复杂环境通信难题的关键，而中…

张开发

前端开发 2026/6/13 14:27:55

深入解析NXP Kinetis SDK SIM HAL驱动：从时钟管理到外设配置实战

1. 项目概述与SIM模块核心价值在基于NXP Kinetis系列MCU的嵌入式开发中，尤其是面对K64F12这类高性能ARM Cortex-M4内核的芯片时，系统集成模块（System Integration Module, SIM）是你绕不开的“中央调度室”。它远不止是一个简单的…

张开发

前端开发 2026/6/13 14:20:05

DSView开源仪器软件：3步快速上手的终极完整指南

DSView开源仪器软件：3步快速上手的终极完整指南【免费下载链接】DSView An open source multi-function instrument for everyone 项目地址: https://gitcode.com/gh_mirrors/ds/DSView DSView开源仪器软件是一款基于sigrok项目的多功能仪器平台&#xff0c…

张开发

前端开发 2026/6/13 14:18:04

终极鸣潮游戏优化工具：WaveTools完全指南，一键解锁帧率与多账号管理

终极鸣潮游戏优化工具：WaveTools完全指南，一键解锁帧率与多账号管理【免费下载链接】WaveTools 🧰鸣潮工具箱项目地址: https://gitcode.com/gh_mirrors/wa/WaveTools 如果您是《鸣潮》的PC玩家，是否曾为游戏帧率限制、多…

张开发

前端开发 2026/6/13 14:09:55

魔兽争霸3终极优化指南：5个技巧让老游戏焕发新生机

魔兽争霸3终极优化指南：5个技巧让老游戏焕发新生机【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper Warcraft Helper 是一个专为经典游戏《…

张开发

前端开发 2026/6/13 13:59:21

深度重构Web图像编辑体验：Vue-Fabric-Editor插件化架构的革命性变革

深度重构Web图像编辑体验：Vue-Fabric-Editor插件化架构的革命性变革【免费下载链接】vue-fabric-editor 快图设计-基于fabric.js和Vue的开源图片编辑器，可自定义字体、素材、设计模板。fabric.js and Vue based image editor, can customize fonts, mat…

张开发

前端开发 2026/6/13 13:55:50

Windows下安装rabbitmq

安装包准备: 1:erlang 下载地址:https://www.erlang.org/downloads 2:rabbitmq 下载地址:https://www.rabbitmq.com/docs/install-windows 为什么需要erlang 1)erlang是什么 erlang是一种开发语言虚拟机语言层面：Erlang 是一种函数式、并发优先的语言运行时层面&…

张开发

前端开发 2026/6/13 13:34:39

AI编程工具每日3000万Token，新人白嫖7天专业会员

一直在找能长期稳定使用的 AI 编程工具，试过不少平台后发现，要么免费额度少得可怜，用一会儿就提示算力不足，要么高阶功能全都锁在会员里，想体验完整服务就得额外花钱。偶然发现这款工具后，使用体验超出预期…

张开发

前端开发 2026/6/13 13:07:53

【2027最新】基于SpringBoot+Vue的制造装备物联及生产管理ERP系统管理系统源码+MyBatis+MySQL

💡实话实说：CSDN上做毕设辅导的都是专业技术服务，大家都要生活，这个很正常。我和其他人不同的是，我有自己的项目库存，不需要找别人拿货再加价。我就是个在校研究生，兼职赚点饭钱贴补生活费&…

张开发

前端开发 2026/6/13 12:56:07

全面揭秘Windows热键冲突：高效定位占用进程的实用方法

全面揭秘Windows热键冲突：高效定位占用进程的实用方法【免费下载链接】hotkey-detective A small program for investigating stolen key combinations under Windows 7 and later. 项目地址: https://gitcode.com/gh_mirrors/ho/hotkey-detective 你是否曾…

张开发

前端开发 2026/6/13 12:55:25

做出最强 AI 编程工具的 Anthropic，反而在教你怎么“管住“Agent

一个反直觉的现象：越是把 AI 编程能力做到极致的公司，越是花力气讲"怎么约束它"。这不是矛盾，这是成熟。一、Code with Claude 2026 的关键词：Managed、Proactive、能力曲线 Anthropic 的 Code with Claude 2026 上&…

张开发

前端开发 2026/6/13 12:47:01

MC9S08QE128系统控制与GPIO配置实战：从寄存器原理到稳定嵌入式设计

1. 项目概述：深入MC9S08QE128的“神经中枢”搞嵌入式开发，尤其是基于Freescale/NXP HCS08这类经典8位MCU，很多朋友可能一开始就埋头写应用逻辑，或者直接调用库函数。但真正想玩转一块MCU，写出稳定、高效、省电的代码&a…

张开发

陶哲轩First Proof项目二批评测：7道题AI解答达发表标准，各系统成本耗时差异大

最新文章

告别Vuex/Pinia依赖：用200字节的mitt库搞定Vue3组件通信（附实战代码）

英雄联盟回放播放终极解决方案：ROFL-Player完整使用手册

PS液化工具进阶指南：如何用‘球面化’滤镜自然缩小头部（附参数详解）

3步掌握ANARCI：抗体序列编号与分类的终极指南

i.MX23启动与调试全解析：从BootROM到JTAG的嵌入式系统基石

用MATLAB手把手复现ESPRIT算法：从ULA阵列仿真到DOA估计实战（附完整代码）

推荐文章

CSDN AI数字营销卡片配置手册（跳转权限解禁版）：官方未公开的3种合规跳转变通方案

MetaGPT 插件开发：扩展 AI Agent Harness Engineering 功能的实战教程

类型化特征架构：用类型系统解决机器学习特征复用难题

网盘直链下载助手：免费解锁8大网盘高速下载的终极指南

从DeepWalk到GraphSAGE：Node Embeddings技术演进与选型避坑指南

终极游戏资源编辑器：Harepacker-resurrected完整指南与实战教程

相关文章

终极ESP32 Arduino开发指南：从零开始快速上手物联网项目

如何打造个人专属的数字记忆库：WeChatMsg终极数据管理指南

Windows 11下SecureCRT 8.5安装激活全攻略（附注册机与避坑指南）

Gemini推送通知优化终极手册（2024Q2最新API v1.5实测数据+AB测试报告）

【Gemini社交媒体运营实战指南】：20年AI营销专家亲授7大高转化内容公式

保姆级教程：在Ubuntu 22.04上为GStreamer 1.22编译NVIDIA NVENC/NVDEC插件（含CUDA 12.x适配）

分享文章

更多文章

COFDM 图传设备与自组网模块，构建应急通信新生态

深入解析NXP Kinetis SDK SIM HAL驱动：从时钟管理到外设配置实战

DSView开源仪器软件：3步快速上手的终极完整指南

终极鸣潮游戏优化工具：WaveTools完全指南，一键解锁帧率与多账号管理

魔兽争霸3终极优化指南：5个技巧让老游戏焕发新生机

深度重构Web图像编辑体验：Vue-Fabric-Editor插件化架构的革命性变革

Windows下安装rabbitmq

AI编程工具每日3000万Token，新人白嫖7天专业会员

【2027最新】基于SpringBoot+Vue的制造装备物联及生产管理ERP系统管理系统源码+MyBatis+MySQL

全面揭秘Windows热键冲突：高效定位占用进程的实用方法

做出最强 AI 编程工具的 Anthropic，反而在教你怎么“管住“Agent

MC9S08QE128系统控制与GPIO配置实战：从寄存器原理到稳定嵌入式设计