2025_NIPS_SEC-bench: Automated Benchmarking of LLM Agents on Real-World Software Security Tasks

张开发

• 2026/5/5 19:57:28 • 15 分钟阅读

分享文章

2025_NIPS_SEC-bench: Automated Benchmarking of LLM Agents on Real-World Software Security Tasks

文章核心总结与创新点主要内容本文提出SEC-bench，首个用于评估LLM智能体在真实软件安全任务中表现的全自动基准测试框架。框架通过多智能体架构（预处理模块、验证模块、评估模块）自动收集并验证真实世界CVE漏洞实例，生成可复现的漏洞环境和验证补丁，最终构建包含200个有效实例的基准数据集。基于该基准，作者设计了漏洞验证代码生成（PoC）和漏洞修复两项核心任务，对SWE-agent、OpenHands等主流LLM代码智能体进行评估，发现其PoC生成成功率最高仅18.0%，漏洞修复成功率最高34.0%，凸显当前LLM在安全工程领域的性能缺口。核心创新点首个多智能体驱动的安全基准框架：通过Builder、Exploiter、Fixer三类专用智能体协同工作，解决漏洞复现的环境敏感性、PoC可靠性不足等行业痛点。高性价比的真实漏洞数据集构建：以每个实例0.87美元的低成本，生成包含可复现环境、有效PoC和验证补丁的高质量数据集，较单智能体方案验证成功率提升85.7%。贴近实际工作流的评估任务设计：聚焦PoC生成和漏洞修复两大核心安全任务，采用容器化环境确保评估一致性，反映专业安全工程师的实际工作场景。全面的LLM安全能力评估：系统测试主流模型和智能体架构，揭示其在低级别内存操作、漏洞根源分析等安全核心能力上的短板。英文原文翻译（Markdown格式）Abstrac

更多文章

前端开发 2026/4/23 20:57:09

Deepo终极指南：20个实用技巧助你快速搭建深度学习环境

Deepo终极指南：20个实用技巧助你快速搭建深度学习环境【免费下载链接】deepo Setup and customize deep learning environment in seconds. 项目地址: https://gitcode.com/gh_mirrors/de/deepo Deepo是一款能够帮助你在几秒钟内搭建和定制深度学习环境的强…

张开发

前端开发 2026/4/24 0:02:19

如何构建完美的LanceDB持续集成：GitHub Actions自动化流程终极指南

如何构建完美的LanceDB持续集成：GitHub Actions自动化流程终极指南【免费下载链接】lancedb Developer-friendly, serverless vector database for AI applications. Easily add long-term memory to your LLM apps! 项目地址: https://gitcode.com/gh_mirrors/l…

张开发

前端开发 2026/5/5 19:57:13

DEVOPS-WORLD基础设施即代码：Terraform与Ansible最佳实践

DEVOPS-WORLD基础设施即代码：Terraform与Ansible最佳实践【免费下载链接】DEVOPS-WORLD 项目地址: https://gitcode.com/gh_mirrors/de/DEVOPS-WORLD 基础设施即代码（IaC）已成为现代DevOps实践的核心，而Terraform与Ansib…

张开发

前端开发 2026/4/23 21:59:17

WPS集成MathType：一键配置VBA环境全攻略

1. 为什么需要WPS集成MathType？ 对于经常需要编辑数学公式的科研人员、教师和学生来说，MathType无疑是最好用的公式编辑器之一。但很多人在使用WPS时会发现，默认情况下WPS并不能直接调用MathType，每次都要手动复制粘贴公式&#x…

张开发

前端开发 2026/4/23 23:28:50

深入解析WandB与PyTorch Lightning的集成：从基础配置到高级监控

1. 为什么需要WandB与PyTorch Lightning集成在深度学习项目中，我们经常面临两个关键挑战：实验管理复杂和训练过程不透明。每次修改超参数后，手动记录模型表现就像用纸质笔记本记菜谱——容易丢失关键细节。训练过程中盯着黑色终端看数字跳动…

张开发

前端开发 2026/4/28 20:51:00

终极指南：揭秘markdown-preview.nvim的实时预览事件监听机制

终极指南：揭秘markdown-preview.nvim的实时预览事件监听机制【免费下载链接】markdown-preview.nvim markdown preview plugin for (neo)vim 项目地址: https://gitcode.com/gh_mirrors/ma/markdown-preview.nvim markdown-preview.nvim是一款专为(neo)vim打…

张开发

前端开发 2026/4/24 0:14:13

【开题答辩全过程】以校园环保公益网站设计与实现为例，包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人，语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…

张开发

前端开发 2026/4/23 23:43:43

生产环境部署：rate-limiter-flexible的最佳配置与监控方案

生产环境部署：rate-limiter-flexible的最佳配置与监控方案【免费下载链接】node-rate-limiter-flexible animir/node-rate-limiter-flexible: 是一个用于 Node.js 的可扩展的速率限制库，可以方便地实现 Node.js 应用的速率限制。适合对 Node.js、速率限…

张开发