论文阅读:ICLR 2026 Adversarial Déjà Vu: Jailbreak Dictionary Learning for Stronger Generalization to Un

张开发
2026/4/23 17:53:35 15 分钟阅读

分享文章

论文阅读:ICLR 2026 Adversarial Déjà Vu: Jailbreak Dictionary Learning for Stronger Generalization to Un
总目录 大模型安全研究论文整理 2026年版https://blog.csdn.net/WhiffeYF/article/details/159047894Adversarial Déjà Vu: Jailbreak Dictionary Learning for Stronger Generalization to Unseen Attackshttps://openreview.net/forum?idWFo8P1gQBhhttps://openreview.net/pdf?idWFo8P1gQBh该论文名为《Adversarial Déjà Vu: Jailbreak Dictionary Learning for Stronger Generalization to Unseen Attacks》由来自弗吉尼亚理工大学、普林斯顿大学和亚马逊 AGI 的 Mahavir Dabas 等研究人员共同撰写并已被人工智能顶级学术会议 ICLR 2026 接收发表。该论文聚焦于大语言模型的安全性致力于解决模型面对不断涌现的未知“越狱”攻击时防御失效的严峻挑战。大模型在面对精心设计的越狱提示词时往往会绕过内置的安全护栏从而生成有害内容。传统的对抗性训练旨在让模型对最坏情况的扰动保持鲁棒性。然而由于优化困难且难以定义现实的威胁模型这种方法在面对实际中新开发出的越狱攻击时经常失效。为此该论文提出了“对抗既视感Adversarial Déjà Vu”假说所谓的新型越狱攻击本质上并不是全新的它们很大程度上只是过往攻击中“基础对抗技能”的重新组合。为了应对这一安全挑战该论文提出了一种全新的防御范式——对抗技能组合训练ASCoT。我们可以用一个通俗的例子来理解这个方法假设“越狱”就像是黑客在调配各种“毒药”。以前的对抗训练方法是让模型死记硬背某几种具体的“毒药配方”即孤立的攻击实例一旦黑客换了新配方模型就防不住了。而该论文的方法则是利用自动化管道提取出配毒的“基础成分”比如“伪装成学术研究”、“请求可执行代码”等基础技能建立一个精简稀疏的“越狱字典”。在训练时不再让大模型去记具体的旧配方而是将这些“基础成分”进行各种多样的随机组合来训练模型。这样一来无论未来黑客怎么推陈出新大模型都能一眼识破这只是旧成分的“新包装”从而成功抵御未知的攻击。实验结果表明该论文提出的 ASCoT 方法在防御未知攻击甚至包括多轮越狱攻击方面取得了实质性的显著提升同时还保持了极低的过度拒绝率。这也进一步证明了在提升大模型安全性时扩大对抗技能的覆盖面而不仅仅是扩大数据规模才是防御未知新型攻击的关键所在。

更多文章