美团与中科院GENERAL365:常识推理测试揭示顶尖AI模型仅获62分

张开发
2026/4/22 8:25:41 15 分钟阅读

分享文章

美团与中科院GENERAL365:常识推理测试揭示顶尖AI模型仅获62分
这项由美团与中国科学院大学联合开展的研究以预印本形式发布于2026年4月13日论文编号为arXiv:2604.11778完整标题为《GENERAL365: Benchmarking General Reasoning in Large Language Models Across Diverse and Challenging Tasks》有兴趣深入了解的读者可通过上述编号查询原文。如果你关注过近几年人工智能的发展大概听说过大语言模型这个词——它们就是ChatGPT、DeepSeek、Gemini这类能跟你对话、帮你写文章、解数学题的AI系统。这些模型在高考数学、物理竞赛甚至国际奥林匹克数学联赛上的表现已经接近甚至超越顶级人类选手看起来聪明得令人咋舌。然而美团与中科院的研究团队提出了一个令人深思的问题这些AI真的聪明吗还是只是在某些特定科目上刷题刷得特别好为了回答这个问题研究团队打造了一套名为GENERAL365的测试题库专门测试AI在常识推理场景下的能力——也就是那些不需要专业知识、普通人靠逻辑思考就应该能解决的问题。结果出人意料即便是当前全球最强的AI模型最高也只答对了62.8%的题目大多数模型甚至连60分都没过。这个成绩对于那些在数学竞赛上几乎满分的AI来说无疑是一记响亮的警钟。一、AI在数学竞赛上满分为什么在常识题上却翻车了要理解这件事可以用一个生活中的例子来类比。你的邻居小明在学校的物理和数学成绩永远是满分但每次你让他帮你分析明天应该带伞还是不带伞或者怎么安排三个朋友的座位才能让大家都满意他却总是支支吾吾说不清楚。这并不是说他不聪明而是他的聪明是一种高度专业化的、针对特定题型训练出来的能力而不是真正灵活的逻辑思维。当前的顶级AI模型正面临类似的困境。现有的主流测试方法比如数学竞赛题库AIME、物理竞赛题库IPhO或者代码编写测试SWE-bench都高度依赖特定领域的专业知识。AI模型在这些测试上的出色表现部分原因是它们在训练过程中见过大量同类题目本质上更像是一种极度精准的认题能力而非真正的推理能力。研究团队发现现有的通用推理测试即不依赖专业知识的逻辑推理测试存在两个明显缺陷。第一个问题是题目太单调很多测试题目虽然数量多但背后的解题套路大同小异就像一道题换了不同的名字反复出现AI只要掌握了一个模板就能应付绝大多数变体这会让测试成绩虚高看起来AI很厉害实际上只是摸到了规律。第二个问题是题目太简单随着AI能力的快速提升很多原本被认为有挑战性的测试题库现在AI几乎可以全部答对这使得这些测试已经失去了区分优秀AI与超级优秀AI的能力就像一场每个学生都能考100分的考试根本看不出谁更厉害。正是在这样的背景下GENERAL365应运而生。二、GENERAL365是什么它有哪些与众不同的地方GENERAL365的名字来源于它包含的365道种子题目——刚好对应一年365天寓意涵盖日常生活中可能遇到的各类推理挑战。这个题库的核心设计理念可以用一句话概括**只考逻辑不考知识**。所有题目所需的背景知识都严格限定在中学K-12水平以内确保任何受过基础教育的成年人在理论上都具备解题所需的知识储备真正的挑战完全来自推理本身。这个题库有几个让它与众不同的特质。首先是题目的多样性。研究团队将题目分为八大类别覆盖了从空间推理到概率判断、从逻辑谜题到策略优化的广泛范围。而且题目是人工精心设计的而非通过模板批量生成每道题在解题思路和逻辑结构上都有其独特之处。为了验证这一点研究团队专门用AI技术对题目的相似度进行了量化评估发现GENERAL365中两道最相似题目之间的相似分只有2.16分满分5分而竞争对手BBH和BBEH的得分高达4.71和4.80——几乎意味着那些题库里的题目大多数是同一道题的换皮版本。其次是题目的难度。研究团队在题目发布前专门筛除了那些顶尖AI模型能够轻松解决的题目确保留下来的都是真正有挑战性的内容。事实证明这个筛选非常奏效——最强的AI模型在这套题上也只能答对62.8%。再者是质量的严格把控。每一道题都经过人工审核确保题目表述清晰、答案唯一正确、解题过程可验证。为了方便评分研究团队还开发了一套混合评分系统对于数字类答案用程序自动核对对于需要文字描述的答案则用GPT-4.1模型来判断经过人工抽查验证评分准确率高达99.6%。在题目规模上365道种子题目经过扩展后形成了1095道变体题目总计1460道评测题目。每道种子题目都对应3道变体这些变体保持了核心推理逻辑不变但在表面描述或具体数值上进行了改变用于测试AI是否真的理解了推理方法还是只是记住了原题的答案。三、这八类推理挑战究竟是什么GENERAL365涵盖的八大类推理挑战每一类都针对人类和AI思维中不同的薄弱环节。理解这八类挑战有助于我们明白为什么AI在这套题目上会遇到如此大的困难。第一类叫复杂约束。这类题目就像是一道有着十几个条件同时成立的谜题解题者必须在脑子里同时跟踪所有条件确保每一步推理都不与任何一个条件相矛盾。本文开头给出的那道关于摩洛哥人A和B、C、D、E五人排队的题目就是典型例子——15个已知条件同时生效要求算出C所有可能年龄的乘积答案是420。光是把所有条件捋清楚不出错就已经是相当高的认知负担了。第二类叫分支与枚举。这类题目要求解题者系统地考虑所有可能的情况不能遗漏任何一个边界条件。题库中有一道关于8个箱子分配8盒牛奶的题目需要在多个约束条件下统计出所有符合条件的方案数——这种穷举加约束的组合对AI来说既容易遗漏某些情况也容易在某些步骤出现计算错误。第三类叫空间与时间推理。这类题目考查对空间位置或时间顺序的动态理解能力。题库中有一道关于小康在烟雾弥漫的迷宫中按方向移动的题目需要根据一系列转向和位移指令追踪最终位置。这种题目对很多人来说就像在脑子里画地图稍不注意就会走错方向。第四类叫递归与回溯。这类题目需要解题者像下棋一样进行假设-验证-推翻假设-重新假设的循环。题库中那道关于9条隧道和1名敌方伤员的题目就是经典案例伤员每次检查后会移动到相邻隧道最少需要检查多少次才能保证一定能找到他答案是14次推导过程需要系统性地枚举和回溯。第五类叫语义干扰。这类题目是最考验AI的类别之一因为它们专门设置认知陷阱——要么让规则违反常识要么在题目中埋入迷惑性信息。题库中那道关于平行宇宙日历的题目就是典型在那个宇宙里平年和闰年的定义是反的月份天数也跟我们的相反还叠加了两个特殊政策的影响。AI必须完全抛弃关于正常日历的先验知识严格按照题目重新定义的规则运算而这恰恰是AI特别容易犯错的地方——它们很难真正忘掉训练数据中习得的常识偏见。第六类叫隐性信息推理。这类题目不会把所有前提明明白白地告诉你需要从一些看似不相关的线索中自己推导出隐藏的规律。题库中那道关于澳大利亚、印度、中国等国的题目就是这样给出了几个奇怪的等式要求算出阿根廷乘以哈萨克斯坦等于多少。解题关键在于发现这些等式背后隐藏的编码规律答案是根据人口和面积排名来赋值然后进行运算这需要相当的侦探式思维。第七类叫最优策略。这类题目不只要求给出正确答案而是要求给出最优答案——在各种约束条件下找到效率最高的行动方案。题库中那道消防车赶赴火场的题目就是典型路程固定、速度有限制、路上有红绿灯还保证至少会碰到一次完整的红灯要求算出最短可能时间。这类题目要求解题者在多个变量之间做出权衡和优化而不是简单地计算一个确定性结果。第八类叫概率与不确定性。这类题目在不完整信息下进行概率推断。题库中那道关于谁是最可疑嫌疑人的推理故事就是一个例子所有朋友都在场只有两人不在其中一人被枪击侦探直接指认了不在场的人为凶手……等等侦探怎么知道凶手是谁他说我已经知道了——那他本人才是最可疑的那个。答案选D侦探。这类题目需要AI在不完整信息下做出概率性推断而不是简单地进行确定性逻辑演算。值得一提的是这八类挑战并非相互独立题库中近70%的题目被标注了两个或两个以上的类别标签意味着大多数题目同时考查多种推理能力真正体现了现实生活中复杂问题的多维度性质。从数量分布来看复杂约束类题目最多占了整体的约65%概率与不确定性最少但也保证了超过20道确保这一类别的覆盖不会太稀疏。四、题目是怎么制作出来的GENERAL365的制作过程分为四个阶段整个流程可以理解为人工出题→机器扩展→人工把关→最终定稿。第一阶段是种子题目的人工设计。研究团队从真实世界的各类场景中广泛收集灵感确保每道种子题目都能对应八大类别中的至少一种。更重要的是每道题必须是原创的不能在网上搜索到答案也不能是已有题库的变体。每道种子题目都以三元组的形式存在题目描述、完整的解题推理过程以及最终答案。这三个部分都经过人工交叉核验确保逻辑自洽、答案唯一正确。第二阶段是难度筛选和多样性增强。完成初步收集后研究团队对题目进行了严格筛选淘汰那些顶尖AI模型能够轻松解决的题目以及与现有题库高度相似的题目。同时对于某些类别中题目数量偏少的情况研究人员手动补充了更多样化的题目确保每个类别都有足够的覆盖度。第三阶段是数据后处理。为了让AI能够准确理解题目要求并输出标准化答案研究团队对每道题目进行了语言优化。首先通过让AI模型尝试回答题目发现题目描述中可能存在的歧义并加以修正。其次为每道题添加了输出格式指引比如请从以下选项中选择一个或多个答案确保AI给出的答案是可以被程序自动评分的。最后尽可能将答案转换为数字或标准化格式便于精确核对。第四阶段是大规模扩展和人工质量审核。在种子题目确定后研究团队让AI模型为每道种子题目生成10个候选变体然后由人工专家对这些变体进行严格审核剔除逻辑错误或质量不达标的版本。对于某些难以通过AI自动生成高质量变体的题目研究人员直接手动编写变体。最终每道种子题目保留了3道高质量变体从而将题库规模从365道扩展到1460道。五、26个顶尖AI谁的表现最好谁又最差研究团队对26个来自全球各大顶尖AI公司的模型进行了全面测试覆盖了OpenAIGPT系列、谷歌DeepMindGemini系列、AnthropicClaude系列、DeepSeek、阿里Qwen系列、智谱GLM系列、月之暗面Kimi系列以及美团自研的LongCat系列。这些模型既包括了专门为复杂推理设计的思考型模型也包括了通用对话类模型。测试结果的整体面貌有些让人哭笑不得。谷歌的Gemini-3-Pro以62.8%的准确率位列第一但这意味着它每做10道题就会答错将近4道。紧随其后的是谷歌的Gemini-3-Flash60.8%和智谱的GLM-5-Thinking59.9%同时也是开源模型中的最高分。大多数模型甚至没能达到60%这个及格线而对于一个知识储备限定在中学水平的考试来说这样的成绩着实令人深思。从开源与闭源的对比来看开源模型与闭源模型之间的差距已经相当小——最强开源模型GLM-5-Thinking59.9%与最强闭源模型Gemini-3-Pro62.8%之间只有不到3个百分点的差距说明开源AI社区的进步速度相当迅猛。另一个有趣的现象是一些不具备深度思考功能的普通对话模型表现反而超过了部分专门为推理设计的思考型模型。例如阿里的Qwen3-Max-Instruct48.5%和美团的LongCat-Flash41.7%都击败了谷歌的Gemini-2.5-Flash39.6%尽管后者是一个专门优化过推理能力的模型。这说明原始的基础模型能力对于这类通用推理任务依然非常关键单纯的推理优化并不能弥补基础能力的不足。值得特别关注的是各个AI模型的思考效率。研究团队统计了每个模型在回答每道题时平均使用的输出文字量以token计算发现了一个有趣的规律总体上输出越多的模型成绩越好说明顶尖模型确实需要多想一会儿才能解决这些复杂问题。不少顶级推理模型平均需要输出25000到30000个token相当于一篇中等长度的学术论文才能完成每道题的作答。然而Gemini-3-Pro却是一个显著的例外——它以平均约14000个token的输出量只有其他顶级模型的一半左右取得了最高的62.8%准确率。这意味着Gemini-3-Pro的每一个思考步骤都比其他模型更有效率它不是靠想得更多赢的而是靠想得更准赢的这被研究团队称为更高的推理密度。六、哪类题目最难AI在哪里最容易翻车通过对八大类别分别统计各模型的准确率研究团队发现了两个明显的难关语义干扰类和最优策略类。在几乎所有被测试的模型中这两个类别的得分都比该模型的总体平均分低大约10个百分点。对于语义干扰类题目AI的困难来自一个根本性的弱点它们很难真正遗忘或暂时搁置从海量训练数据中学到的常识。当一道题告诉AI在这个平行宇宙里平年有366天而闰年有365天AI虽然在理论上知道要按照题目的新定义来解题但在实际推理过程中它们常常会不自觉地被真实世界的知识带偏最终得出基于现实日历的错误答案。这就像让一个从小学数学的人突然改用113的新规则来做题知道规则是一回事真正不出错地用新规则思考是另一回事。对于最优策略类题目AI的困难在于它们不擅长权衡全局。这类题目要求在多个约束条件和多个可能的行动序列中找到全局最优解需要预见行动的长期后果并进行综合比较。目前的AI模型在这方面表现出明显的局限性它们更擅长解决有唯一正确答案的确定性问题而对于需要比较哪种方案更好的优化问题则显得力不从心。相比之下AI在递归与回溯类和隐性信息推理类题目上的表现相对较好——当然也只是相对而言准确率依然远谈不上优秀。有趣的是在隐性信息推理这个类别中顶尖的思考型模型如Gemini-3-Pro达到了68.8%与普通对话类模型如DeepSeek-V3.2-Chat只有29.6%之间的差距是所有类别中最大的超过了39个百分点。这说明推理能力和对话能力是两种截然不同的能力而从零散线索中推导隐藏规律这件事特别需要真正的推理能力而不是简单的语言理解能力。七、GENERAL365比其他测试难在哪里数据说话研究团队将GENERAL365与两个广泛使用的通用推理测试题库——BBH和BBEH——进行了直接比较结果非常直观地展示了GENERAL365的高难度。以GPT-4.1为例这个模型在BBH上的准确率高达89.4%在BBEH上达到36.1%而在GENERAL365上只有26.7%。换到更强的o3-mini模型BBH上89.6%、BBEH上50.4%GENERAL365上44.4%。最顶尖的Gemini-3-Pro在BBH上能达到94.4%BBEH上77.0%但GENERAL365上只有62.8%。从这组数据可以清晰地看到随着模型能力的提升BBH已经基本失去了区分能力几乎所有强模型都能答对90%以上BBEH次之而GENERAL365在所有能力层级上都保持了显著的区分度。更有意思的证据来自AI模型的写作长度。研究团队观察到同一个模型在回答不同题库的题目时写得越长往往意味着题目越难。以GPT-5-Thinking为例它在BBH上平均只需要约2000个token就能完成作答在BBEH上约5000个token而在GENERAL365上则需要超过13000个token。Gemini-3-Pro的模式类似BBH上不到2000个tokenBBEH上约5000个tokenGENERAL365上超过10000个token。这种越难写得越多的现象从另一个角度证明了GENERAL365对AI造成的认知负担远超其他题库不是因为题目措辞复杂而是因为真正需要更多步骤的深度推理。在多样性验证方面研究团队使用了一种叫做t-SNE降维可视化的技术——可以把它理解为把一大堆题目投影到一张平面地图上语义相似的题目会落在地图上的同一区域而语义差异大的题目则会散落在地图的不同角落。结果显示GENERAL365的题目在地图上均匀散布几乎覆盖了整个平面而BBH和BBEH则表现出明显的结块现象多个高密度的题目簇聚集在地图的特定区域说明这些题库中大量题目在语义上高度相似本质上是同一类问题的反复变体。八、研究的意义这对AI的未来发展意味着什么归根结底这项研究揭示的核心问题是**当前AI的智能高度依赖于特定领域的训练经验而不是真正通用的逻辑推理能力**。一个在奥数竞赛上能拿金牌的AI在面对一道只需要初中知识但逻辑结构复杂的谜题时可能表现得还不如一个认真思考的中学生。这个发现对AI的实际应用有着直接的含义。当我们把AI应用于真实世界的场景时——比如帮助做商业决策、辅助医疗诊断、参与复杂的谈判策略分析——这些场景往往不是用公式套答案的问题而是充满了语义干扰、约束条件、隐性信息和策略权衡的复杂局面。GENERAL365的测试结果警示我们目前的AI在这类真实世界的推理任务上还远未成熟。研究团队将GENERAL365的题目、代码和排行榜全部公开发布希望借助整个AI研究社区的力量共同推动通用推理能力的进步。这个排行榜会随着新模型的发布持续更新任何人都可以提交自己的模型参与测评形成一个开放的竞赛平台。说到底这项研究做的事情就是给当下最聪明的AI们出了一张真正考察思维能力的试卷。结果发现最强的AI考了62.8分勉强算是及格而大多数还在不及格线上挣扎。这并不是说AI没有未来恰恰相反这说明AI推理能力的提升空间依然巨大而GENERAL365这把尺子可以帮助研究者们更准确地量出这个空间的边界从而更有针对性地填补它。下次当你看到某个AI在数学竞赛上拿满分的新闻时不妨多问一句它在面对一道充满干扰信息的生活逻辑题时会不会也翻车答案是很可能会。但也许再过几年这个答案会变得不一样。有兴趣深入了解这项研究的读者可以通过arXiv编号2604.11778查阅完整原文。QAQ1GENERAL365基准测试和普通AI数学测试有什么区别AGENERAL365专门测试AI的通用推理能力所有题目的背景知识只需要中学水平但逻辑结构非常复杂包含语义干扰、隐性信息、策略优化等真实推理场景。而数学测试更依赖专业知识和公式套用两者考察的是不同维度的能力。Q2为什么顶尖AI在GENERAL365上只能考60多分A因为GENERAL365的题目会刻意设置认知陷阱、复杂约束和迷惑性信息要求AI完全依靠逻辑推理而非记忆知识。现有AI的推理能力高度依赖训练数据中的特定模式面对需要抛弃常识偏见的全新规则时往往会不自觉地被训练数据带偏导致错误答案。Q3GENERAL365题库里的题目普通人能做出来吗A理论上可以因为所有题目的知识要求不超过中学水平。但这些题目在逻辑结构上相当复杂需要同时追踪多个约束条件、系统枚举所有情况或进行多步骤的反向推理对普通人来说依然很有挑战性需要耐心和细致的逻辑分析才能解答。

更多文章