ProgramBench 重新定义 AI Coding 评估：大模型软件工程能力遭“团灭”，瓶颈在哪？

张开发

• 2026/5/8 2:02:34 • 15 分钟阅读

分享文章

ProgramBench 重新定义 AI Coding 评估：大模型软件工程能力遭“团灭”，瓶颈在哪？

地狱级新 benchmark 结果震撼SWE - Bench 创建者放出新 benchmarkClaude Opus 4.7、GPT - 5.4、GPT - 5 mini、Gemini 3.1 Pro、Gemini 3 Flash 等一线模型全部 0% 完成率意味着今天的大模型会写代码但不会做软件工程。ProgramBench 重新定义评估方式Meta FAIR 联合斯坦福、哈佛等机构发布 ProgramBench它把问题推进到软件工程层面让 AI 从零开始构建可执行软件系统如 ffmpeg、SQLite、ripgrep且不能联网。它采用行为等价打分用 agent - driven fuzzing 做测试结果所有模型 0% 完成率。模型表现细节Figure 4 显示模型常能完成一部分少数任务接近完成但要求 100% 行为等价就不行。Claude 系列表现相对最好Claude Opus 4.7 只有 3% 的任务接近完成。模型倾向于生成单体化代码与人类工程师习惯相反暴露其擅长局部代码生成不擅长全局系统规划的问题。不同语言与任务难度表现研究团队统计模型在 C/C、Go、Rust 等语言项目上的表现C/C 项目完成度最高Rust 最差。不同模型在任务难度排序上一致简单 CLI 工具通过率高复杂系统难推进说明复杂软件系统对当前模型有稳定压制。围绕 ProgramBench 的争议及回应有人质疑 ProgramBench 是考模型背过 FFmpeg 吗知名硅谷投资人 Deedy Das 回应称任何 benchmark 都可能被 overfit真正重要的是模型完成这类任务的能力可能泛化到其他工程场景。还有人吐槽 benchmark 不合理Deedy Das 认为 benchmark 目标是推动模型向更高层次智能逼近人类做不到不意味着没价值。ProgramBench 的缺陷与改进方向ProgramBench 存在缺陷如没测试 Claude Code、Codex 等完整 agent harness只统计是否完成限制联网能力等。但这些问题可随 benchmark 演进修正它第一次把 AI Coding 评估从函数级拉到系统级暴露出行业断层。行业研究新方向当前大模型缺乏维护复杂系统的能力行业开始研究 memory、agents、repo - level reasoning、long - horizon planning、autonomous software engineering 等关键词下一阶段竞争可能是谁能持续稳定维护软件系统。

更多文章

前端开发 2026/5/8 2:00:52

ShawzinBot：3分钟让Warframe玩家变身游戏音乐家

ShawzinBot：3分钟让Warframe玩家变身游戏音乐家【免费下载链接】ShawzinBot Convert a MIDI input to a series of key presses for the Shawzin 项目地址: https://gitcode.com/gh_mirrors/sh/ShawzinBot 你是否曾经在Warframe游戏中看到其他玩家用Shawzin…

张开发

前端开发 2026/5/8 1:55:04

如何快速解决细胞图像分割难题：Cellpose完整指南

如何快速解决细胞图像分割难题：Cellpose完整指南【免费下载链接】cellpose a generalist algorithm for cellular segmentation with human-in-the-loop capabilities 项目地址: https://gitcode.com/gh_mirrors/ce/cellpose Cellpose是一款基于深度学习的开…

张开发

前端开发 2026/5/8 1:23:46

如何快速掌握Fernflower：Java字节码反编译的终极指南

如何快速掌握Fernflower：Java字节码反编译的终极指南【免费下载链接】fernflower Decompiler from Java bytecode to Java, used in IntelliJ IDEA. 项目地址: https://gitcode.com/gh_mirrors/fe/fernflower Fernflower是Java生态系统中功能最强大的字节码…

张开发

前端开发 2026/5/8 1:23:32

ARM MMU与L1缓存机制详解及性能优化实践

1. ARM MMU内存访问机制深度解析在ARMv7架构中，内存管理单元(MMU)负责虚拟地址到物理地址的转换，这是现代操作系统实现内存隔离和保护的核心机制。当处理器执行内存访问指令时，MMU会按照特定顺序执行地址转换流程。1.1 TLB查询层级结构MMU采用…

张开发

前端开发 2026/5/8 1:22:38

流浪动物救助微信小程序（30251）

有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码SQL脚本）配套文档（LWPPT开题报告/任务书）远程调试控屏包运行一键启动项目&…

张开发

前端开发 2026/5/8 1:09:25

金融智能体开发实战：基于eforest-agent-skills构建领域专家Agent

1. 项目概述与核心价值最近在折腾智能体（Agent）开发，发现一个挺有意思的现象：很多开发者，包括我自己在内，一开始都沉迷于搭建一个“全能”的Agent框架，幻想着它能理解一切、处理一切。但现实往往…

张开发

前端开发 2026/5/8 1:03:48

西门子博图TIA Portal V18实战：用LAD梯形图快速搞定一个电机启停控制程序

西门子博图TIA Portal V18实战：用LAD梯形图快速搞定一个电机启停控制程序第一次打开西门子TIA Portal时，面对密密麻麻的工具栏和英文界面，很多新手工程师都会感到无从下手。但当你真正用LAD梯形图完成第一个电机控制程序后，会发现…

张开发

前端开发 2026/5/8 1:03:41

Spring Boot Jar包修改配置文件和Class中硬编码IP的完整指南

前言在实际开发中，我们有时会遇到这样的情况：从第三方或历史版本中拿到一个 Spring Boot 打好的 jar 包，但里面某个服务的 IP 地址是写死的（无论是在 application.yml 还是直接在 Java 代码中作为字符串常量）。由于无…

张开发

前端开发 2026/5/8 0:55:27

如何用HS2-HF_Patch一键解锁Honey Select 2完整中文体验？终极解决方案来了！

如何用HS2-HF_Patch一键解锁Honey Select 2完整中文体验？终极解决方案来了！ 【免费下载链接】HS2-HF_Patch Automatically translate, uncensor and update HoneySelect2! 项目地址: https://gitcode.com/gh_mirrors/hs/HS2-HF_Patch 还在为Honey…

张开发

前端开发 2026/5/8 0:48:44

炉石传说脚本终极指南：从零开始掌握自动化游戏工具

炉石传说脚本终极指南：从零开始掌握自动化游戏工具【免费下载链接】Hearthstone-Script Hearthstone script（炉石传说脚本） 项目地址: https://gitcode.com/gh_mirrors/he/Hearthstone-Script 想要彻底解放双手，让炉石传说…

张开发

前端开发 2026/5/8 0:46:20

告别视频下载烦恼：这款浏览器插件让你轻松保存网络视频

告别视频下载烦恼：这款浏览器插件让你轻松保存网络视频【免费下载链接】VideoDownloadHelper Chrome Extension to Help Download Video for Some Video Sites. 项目地址: https://gitcode.com/gh_mirrors/vi/VideoDownloadHelper 你是否曾经遇到过这样的情…

张开发

前端开发 2026/5/8 0:36:00

英雄联盟录像编辑终极指南：免费开源工具League Director从零到精通完整教程

英雄联盟录像编辑终极指南：免费开源工具League Director从零到精通完整教程【免费下载链接】leaguedirector League Director is a tool for staging and recording videos from League of Legends replays 项目地址: https://gitcode.com/gh_mirrors/le/leagued…

张开发

ProgramBench 重新定义 AI Coding 评估：大模型软件工程能力遭“团灭”，瓶颈在哪？

最新文章

RA8P1 Titan开发板：高性能Cortex-M85 AIoT解决方案

频域信号处理技术与工程实践

航空协同办公大模型系统：揭秘行业领先的人工智能AI赋能方案

为什么你还在用“感觉”管技术债务？AISMM模型强制引入可审计、可回溯、可量化的债务治理SLA

Flutter+Rive+ChatGPT构建交互式儿童语音应用实战

手把手教你为ZYNQ裸机LWIP库添加KSZ9031 PHY支持（Vivado 2017.4实战）

推荐文章

全面掌握AssetRipper：从Unity资源提取到多平台部署的完整指南

LLM个性化评估技术：方法与实战解析

终极AI翻唱生成器AICoverGen：零代码实现专业级声线定制与歌曲翻唱

从流水灯到中断处理：手把手教你用Verilog在FPGA上玩转MIPS模型机

NVIDIA Omniverse Kit 106：云端OpenUSD应用开发指南

开发者如何将ChatGPT无缝集成到本地开发环境与工作流

相关文章

R 4.5新增s2_geometry()函数实测：全球10亿点集距离计算耗时从47分钟降至89秒（附基准测试完整复现代码）

Hotkey Detective：3分钟解决Windows热键冲突的完整指南

5步掌握跨平台数据采集：MediaCrawler智能爬虫工具终极指南

预推免‘赶考’全记录：一周内辗转广州、长沙四场线下复试的真实体验与行程攻略

HALCON 20110 + Python 3.8 环境搭建避坑指南：从dll配置到复杂测量功能实现

算法公平性审查官认证考试全攻略：软件测试从业者的进阶之路

分享文章

更多文章

ShawzinBot：3分钟让Warframe玩家变身游戏音乐家

如何快速解决细胞图像分割难题：Cellpose完整指南

如何快速掌握Fernflower：Java字节码反编译的终极指南

ARM MMU与L1缓存机制详解及性能优化实践

流浪动物救助微信小程序（30251）

金融智能体开发实战：基于eforest-agent-skills构建领域专家Agent

西门子博图TIA Portal V18实战：用LAD梯形图快速搞定一个电机启停控制程序

Spring Boot Jar包修改配置文件和Class中硬编码IP的完整指南

如何用HS2-HF_Patch一键解锁Honey Select 2完整中文体验？终极解决方案来了！

炉石传说脚本终极指南：从零开始掌握自动化游戏工具

告别视频下载烦恼：这款浏览器插件让你轻松保存网络视频

英雄联盟录像编辑终极指南：免费开源工具League Director从零到精通完整教程