文献阅读：FActBench: A Benchmark for Fine-grained Automatic Evaluation of LLM-Generated Text

张开发

• 2026/5/4 6:06:28 • 15 分钟阅读

分享文章

文献阅读：FActBench: A Benchmark for Fine-grained Automatic Evaluation of LLM-Generated Text

-----------------------------------------------------------------------------------------------这是我在我的网站中截取的文章有更多的文章欢迎来访问我自己的博客网站rn.berlinlian.cn这里还有很多有关计算机的知识欢迎进行留言或者来我的网站进行留言----------------------------------------------------------------------------------------------该论文发表在ICNLSP 2025第 8 届国际自然语言与语音处理会议The 8th International Conference on Natural Language and Speech Processing。1. 引言在快速发展的自然语言处理NLP时代大型语言模型LLMs正渗透到几乎所有应用场景和领域。在多数任务中它们展现出强大的生成能力与良好的文本理解力。然而在医疗等关键领域这些模型仍存在产生幻觉的倾向。当前LLM通常依据通用基准进行评估其对医疗领域的评估往往存在不足。自动事实核查领域的尖端技术包括基于自然语言推理NLI结合DeBERTa模型或通过链式推理CoT 以大型语言模型作为裁决者。鉴于在医学等关键领域中事实准确性的重要性采用多种技术进行事实核查具有重要意义。因此提出一致投票机制只有当两种技术均支持某原子事实时才认定该事实准确无误。幻觉通常可分为输入冲突型、上下文冲突型和事实冲突型。本论文研究重点在于事实冲突型幻觉即输出中的事实与世界知识相矛盾的情况。此外本论文工作基于CoT的事实核查方法FActScore。对其进行改造以支持用户提供的锚定文档也就是说把FActScore方法改造成不仅可以外在查询也可以把上传的特定文档里查询使其适用于RAG和摘要生成等任务。提出自动事实核查基准FActBench1具有以下贡献• 采用原子事实对六种当代大型语言模型进行事实核查涵盖四类生成任务文本摘要、通俗摘要、检索增强生成RAG及开放式生成。• 实验中对比了内在依据验证文档与外在维基百科数据集两种事实核查技术。• 最终预测采用领域专家评估作为基准同时评估了自然语言推理NLI、知识转移CoT及一致性投票UnVot三种方法。2. 相关工作幻觉是自然语言生成NLG任务中常见的问题例如抽象化生成、摘要生成、生成式问答或对话生成。幻觉检测与模型输出事实性评估问题密切相关。可通过分析模型逻辑值的不确定性或借助外部知识库对模型输出进行事实核查来检测幻觉现象。近期研究通过问答QA或自然语言推理NLI方法进行评估。最新方法通过向大型语言模型LLMs直接查询评分来实现评估如G-Eval。基于原子事实的真实性评估生成文本如 FActScore。无需外部知识的事实核查方法通过利用词元级不确定性识别输出中潜在事实错误的生成段落。引入Provenance技术利用NLI模型结合上下文验证RAG输出的事实准确性。FactCHD基准测试框架用于检测通用领域、科学领域、健康领域及COVID-19领域中存在事实冲突的幻觉文本。3.FActBench基准测试在基准测试中采用两种最先进的技术——NLI和CoT。原子事实分解遵循 FActScore 的方法将模型生成的所有文本Generations分解为一系列“原子事实”Atomic Facts作为后续核查的最小单元。混合核查机制内在核查Intrinsic首先检查原子事实是否得到原始“参考文档”Grounding Document的支持。外在核查Extrinsic如果某个事实在参考文档中未被提及或被标记为幻觉则会进一步通过维基百科Wikipedia Dump等外部知识库进行核查。这种设计是为了防止模型说出了参考文档之外但客观正确的事实被误判为幻觉。3.1 技术基线 (Baseline)FActScore作为基线遵循其在维基百科上无基准文档的外部验证流程。选用该指标的原因在于其近年在生成式NLP领域论文中的广泛应用。自然语言推理 (NLI)使用DeBERTa-v3模型作为骨干预测前提生成文本与假设参考答案/知识库之间的逻辑关系。如果预测为“蕴含”Entailment则视为正确若为“矛盾”Contradiction则视为幻觉。通过预测矛盾原子事实的NLI类别进行外部验证具体方法为相关维基百科上下文作为假设。NLI旨在预测前提与假设之间的逻辑关系包括蕴含、矛盾及中立立场。思维链 (CoT)基于 FActScore 进行了改进使其支持用户提供的参考文档。它使用GPT-4o mini作为核心架构通过检索维基百科相关条目以维基百科数据集作为知识源或直接比对参考文档来进行事实核查。FActScore通过用户定义的主题从维基百科检索最相关段落实现外部事实核查功能。还集成基于LLM的主题生成器因此在评估时无需手动定义主题。就是说改进了FActScore使其不仅可以通过维基百科来核查还可以通过输入的“参考文档”Grounding Document进行核查一致投票机制 (Unanimous Voting, UnVot)只有当 NLI 和 CoT 两种技术同时判定某个事实正确时才认为该原子事实是准确的。人类评估(Human Evaluation)通过与领域专家判断的相关性来评估CoT、NLI和UnVot技术。我们招募了8名具有医学背景的内部雇员担任标注员。随机抽取80个生成文本每项任务20个进行人工标注确保每个文本由两名标注员评估。标注员遵循相同混合标准同时参考原始文章和维基百科进行事实核查。要求标注员为每个生成文本评定1至100分以评估文本的事实准确性。链式推理采用大型语言模型而自然语言推理则以小型语言模型为基础架构。3.2 任务 (Tasks)各任务在相应数据集上的推理过程中文章平均词数#W与生成token数#Gen W。Summ 文本摘要LaySumm 总结摘要RAG 检索增强生成Gen 开放式生成。文本摘要 (Text Summarization)将长篇科学医学文章数据集PubMed总结为包含目标、方法和临床意义等关键点的摘要。考察大型语言模型将长篇科学论文浓缩为摘要的能力通俗摘要 (Lay Summarization)针对非专业读者使用通俗易懂的语言总结医学研究数据集PLOS 。通俗摘要要求模型能为生物医学文章生成通俗易懂的摘要检索增强生成 (RAG)一个旨在反映生物医学专家真实信息需求的生物医学问答QA数据集BioASQ-QA。问题由专家撰写证据源自PubMed。本论文采用摘要子集——1130个问题配对PubMed人工筛选的证据片段及基于这些片段的人工撰写的理想答案。将黄金片段作为输入提供给大型语言模型LLM并提示其生成给定问题的答案从而模拟RAG管道。开放式生成 (Open-ended Generation)在此场景下不使用上下文仅基于模型知识提示其生成答案。再次采用RAG任务中的BioASQ数据集——将1130个问题作为输入通过提示大型语言模型直接回答问题。3.3 模型 (Models)Llama3.1 8b、 Llama3.1 70b、Mistral 7b、Mixtral 8x7b、Gemma2 9b 以及闭源模型GPT-4o mini。4. 结果与讨论4.1 与人类评估的相关性*标记表示先进行内在核查后再进行外在核查的最终评分维基百科为知识来源的Baseline严重低估了生成文本的正确性而采用CoT则存在高估现象。总体而言UnVot评分与领域专家判断的相关性最佳。该结果适用于文本摘要通俗摘要RAG。而开放式生成则是Baseline最佳。UnVot与人类判断的高相关性是一项重要发现。雇佣人类标注员尤其是领域专家往往耗资巨大且耗时费力。当某些实验室、研究团队或应用场景难以或无法找到人类标注员时拥有与人类评分直觉高度相关的评估指标便能提供足够可靠的替代方案。4.2 任务与大语言模型性能从任务角度看当被要求执行开放式任务时大型语言模型更容易产生幻觉评分比Baseline低。在医疗领域生成文本时大型语言模型表现欠佳。在其他基于上下文的任务中当提供正确语境和支持性文档时这些模型展现出理解医疗等复杂领域的良好能力。在各任务内部大型语言模型的表现基本一致。通俗摘要任务在事实准确性方面表现最佳这可能源于通俗文本采用简明术语和表述的特性有效降低了复杂科学术语混淆引发幻觉的可能性。不同规模的模型在性能上并无显著差异。然而Mistral和Mixtral在两项摘要任务中均表现优异。尽管Mixtral在仅使用基础文档的两项问答任务中表现最佳但经过外部验证后GPT凭借其预训练知识中对维基百科的高认知度脱颖而出。两款Llama模型表现接近Mixtral而Gemma在所有任务中均表现最差。5. 结论提出一项基准测试通过医疗领域的4项任务对当代大型语言模型进行评估。探讨了作为事实核查技术的链式推理、自然语言推理和一致性投票。通过领域专家评估证明一致性投票技术最为可靠。还评估了两种知识来源即锚定文档与维基百科的有效性发现使用多个知识源可提升事实准确性评分。最后发现LLM在医疗领域开放式生成任务中普遍存在事实错误而在摘要生成和RAG等任务中表现更可靠——后两者会为LLM提供部分上下文进行生成。大语言模型提示词-----------------------------------------------------------------------------------------------这是我在我的网站中截取的文章有更多的文章欢迎来访问我自己的博客网站rn.berlinlian.cn这里还有很多有关计算机的知识欢迎进行留言或者来我的网站进行留言----------------------------------------------------------------------------------------------

文献阅读：FActBench: A Benchmark for Fine-grained Automatic Evaluation of LLM-Generated Text

最新文章

重新定义音乐自由：Unlock Music一站式音频解密解决方案

STM32驱动WS2812避坑指南：为什么你的灯颜色不对？详解PWM时序与DMA缓冲区那些坑（HAL库实战）

MDK5主题配置文件global.prop详解：从备份、修改到一键导入的完整指南

2026年AI大模型接口中转站大揭秘！五大头部服务商排名情况全知晓

GPT-SoVITS如何通过1分钟语音数据实现专业级语音克隆？探索开源语音合成技术的颠覆性突破

零基础学网络：用快马AI生成你的第一个ensp交换机VLAN配置实验

推荐文章

全面掌握AssetRipper：从Unity资源提取到多平台部署的完整指南

LLM个性化评估技术：方法与实战解析

终极AI翻唱生成器AICoverGen：零代码实现专业级声线定制与歌曲翻唱

从流水灯到中断处理：手把手教你用Verilog在FPGA上玩转MIPS模型机

NVIDIA Omniverse Kit 106：云端OpenUSD应用开发指南

开发者如何将ChatGPT无缝集成到本地开发环境与工作流

相关文章

R 4.5新增s2_geometry()函数实测：全球10亿点集距离计算耗时从47分钟降至89秒（附基准测试完整复现代码）

Hotkey Detective：3分钟解决Windows热键冲突的完整指南

5步掌握跨平台数据采集：MediaCrawler智能爬虫工具终极指南

预推免‘赶考’全记录：一周内辗转广州、长沙四场线下复试的真实体验与行程攻略

HALCON 20110 + Python 3.8 环境搭建避坑指南：从dll配置到复杂测量功能实现

算法公平性审查官认证考试全攻略：软件测试从业者的进阶之路

分享文章

更多文章

【AI】智能体永久记忆方案

nlp_structbert模型API的流式调用与异步处理模式详解

丹青幻境惊艳效果展示：AI生成敦煌壁画风格飞天形象高清细节图

本土赋能，喵飞AI智能体助力南开企业与个人破局成长

线程池核心知识点解析：从关闭方式到异常处理全攻略

保姆级教程：在Linux服务器上部署LiuJuan20260223Zimage国风模型

如何产生创意：从认知科学到团队机制，再到AI工作流的系统方法（深度长文）

高效AI论文工具合集，支持智能降重与自然语言润色，减少重复内容

别再被浏览器红叉吓到！手把手教你用OpenSSL自签证书搞定本地HTTPS开发环境

小程序资源解析实战：unwxapkg工具全流程指南

Chatbot JSON转Form表单实战：如何高效实现动态表单渲染

西门子（Siemens）功率循环测试（Power Cycling Test）中生成的原始数据或中间处理文件，通常用于半导体器件（如IGBT、MOSFET等）的可靠性评估