2025_NIPS_SEC-bench: Automated Benchmarking of LLM Agents on Real-World Software Security Tasks

张开发
2026/5/5 19:57:28 15 分钟阅读

分享文章

2025_NIPS_SEC-bench: Automated Benchmarking of LLM Agents on Real-World Software Security Tasks
文章核心总结与创新点主要内容本文提出SEC-bench,首个用于评估LLM智能体在真实软件安全任务中表现的全自动基准测试框架。框架通过多智能体架构(预处理模块、验证模块、评估模块)自动收集并验证真实世界CVE漏洞实例,生成可复现的漏洞环境和验证补丁,最终构建包含200个有效实例的基准数据集。基于该基准,作者设计了漏洞验证代码生成(PoC)和漏洞修复两项核心任务,对SWE-agent、OpenHands等主流LLM代码智能体进行评估,发现其PoC生成成功率最高仅18.0%,漏洞修复成功率最高34.0%,凸显当前LLM在安全工程领域的性能缺口。核心创新点首个多智能体驱动的安全基准框架:通过Builder、Exploiter、Fixer三类专用智能体协同工作,解决漏洞复现的环境敏感性、PoC可靠性不足等行业痛点。高性价比的真实漏洞数据集构建:以每个实例0.87美元的低成本,生成包含可复现环境、有效PoC和验证补丁的高质量数据集,较单智能体方案验证成功率提升85.7%。贴近实际工作流的评估任务设计:聚焦PoC生成和漏洞修复两大核心安全任务,采用容器化环境确保评估一致性,反映专业安全工程师的实际工作场景。全面的LLM安全能力评估:系统测试主流模型和智能体架构,揭示其在低级别内存操作、漏洞根源分析等安全核心能力上的短板。英文原文翻译(Markdown格式)Abstrac

更多文章