10 篇论文拆解 Skill + 自进化的技术路线

张开发
2026/4/29 2:05:43 15 分钟阅读

分享文章

10 篇论文拆解 Skill + 自进化的技术路线
25年下半年随着 AlphaEvolve 和 OpenEvolve 等工作的出现自进化Self-evolution这个概念在 Agent 社区引发了广泛的关注。紧接着Anthropic 又将Skill的概念推到了台前围绕它的学术探讨和工程化落地迅速成为了社区的新热点。很自然地在最近一两个月里这两个本来就极具话题度的工作线终于交汇了“Skill 自进化”顺理成章地成为了一个备受瞩目的 topic。借着这个契机我顺着这条线索做了一番梳理挑出了 10 篇比较有代表性的 paper结合我最近在自进化领域的实际经验尝试用 survey 的视角把这个方向的演进脉络盘一盘。如果说早期 Agent 的主战场是会不会调工具那么最近一波工作真正推动范式变化的地方其实是另一件事研究者开始不再把 skill 当成一次性写好的提示词补丁而是把它当成一种可以被持续修改、验证、筛选、沉淀的外部能力资产。一旦 skill 变成了资产它就不再只是提示工程的产物而开始接近软件工程里的模块、知识工程里的工件、以及强化学习里的可复用策略单元。顺着这个思路skill 自进化或许将开辟出一条全新的 Agent 研究路线。基于这批近期工作[1]-[11]这个方向的核心判断有三点skill 正在从静态提示词升级为一种非参数、可版本化、可治理的外部策略层。真正拉开论文层次差距的不是会不会自动生成 skill而是能不能稳定地验证、筛选、保留和回滚 skill 更新。这个方向已经不再只是学术上讨论能不能让 Agent 边用边学而是开始进入一个更工程化的阶段如何让 skill 库长期增长但不失控如何让一次失败真正沉淀为全局能力而不是只留在那次对话里。一. 全景Skill 自进化的一般闭环从真实执行、证据采集、skill 改写、验证选择到版本沉淀构成了 skill 自进化系统的最小闭环二、“skill 自进化”到底是什么先做一个边界澄清。这里说的“skill 自进化”不是泛指所有 Agent 的持续学习也不是只要系统性能在变强就算。更准确地说它至少包含两个条件skill 是外部化的能力单元。它可以是 SKILL.md、workflow、工具调用规则、脚本、领域参考资料或者分层的 skill bank但它必须是一个可以被系统显式读取、检索、编辑、合并、替换的对象。被进化的对象是 skill 本身。也就是系统会基于执行轨迹、失败样本、验证结果、奖励差异或真实交互反馈自动新增、改写、合并、裁剪甚至淘汰 skill而不是只更新模型参数。按这个定义看OpenClaw-RL[1] 这样的工作虽然很有启发性但它的核心是在线恢复 next-state signal 来训练 policy本质上更偏参数侧持续学习。它可以作为旁支参考但不是本文的主角。本文更关心的是另一层skill 作为外部能力资产如何自己长出来、改下去、留下来。一个统一的形式化抽象如果把这批论文放在一起看我们其实可以给skill 自进化系统写出一个相对统一的抽象。定义 1Skill 作为外部能力单元我们可以把一个 skill 抽象为其中m表示元数据名称、描述、触发条件、版本w表示 workflow 或策略主体r表示 references / scripts / templates 等附属资源u表示该 skill 当前的经验效用或可信度估计。在这个定义下某一时刻的 skill 库可以写成这一步很关键。因为一旦写成St我们就等于默认skill 不是一次性提示词而是一个可以被系统显式维护的状态对象。定义 2Skill 自进化的状态转移一个自进化系统的本质可以被写成 skill 库的状态更新其中表示执行轨迹Φt表示交互反馈或环境信号Vt表示验证或评测结果U则表示更新算子。不同论文的差别本质上就是对U的实现不同Trace2Skill [2]偏向 many-to-one 的离线归纳CoEvoSkills[3] 偏向 generator-verifier 协同迭代SkillClaw [4] / EvoSkill [5] 偏向 evidence-driven 的批量治理SkillRL [6]/ D2Skill [7]偏向与 policy 联合更新的训练时演化定义 3Skill 的效用更新从 D2Skill 这类工作里可以提炼出一个很有代表性的思想skill 的价值不应只由语义相关性决定还应由用了它以后到底比不用它强多少来决定。于是可以写出一个效用更新式这里的表示注入该 skill 后的表现表示不使用 skill 或使用基线策略时的表现β是平滑系数。这个式子虽然是概括性的但它很好地抓住了 D2Skill 的精髓skill 不是看起来相关就算有用而是必须在结果层面体现增益。进一步地检索时的打分也不该只看语义相似度而应同时考虑历史效用与探索需要其中*sim(s,q)*表示 skill 与当前任务查询q的语义匹配度*ut(s)*表示 skill 的经验效用最后一项则对应一种探索偏置那些尚未被充分评估的新 skill不应在早期就被完全埋没。定义 4系统视角下的 SkillOps 目标函数如果进一步站在系统视角那么 skill 自进化追求的就不只是性能越高越好而是在性能、上下文成本、冗余度与回归风险之间做优化。于是可以写出一个更宏观的目标函数其中*R(πt,St)*表示当前 policy 与 skill 库共同作用下的任务收益*C(St)*表示上下文注入与调用成本*D(St)*表示 skill 库的冗余和重复度*G(St,St-1)*表示新版本相对旧版本的回归风险这个写法把这批论文共同面临的工程现实一口气说清楚了未来真正难的不是让上升而是让它在不引爆C、D、G的前提下上升。也正因此EvoSkill、SkillClaw、SkillForge 这些工作才会把这么多精力放在验证、准入、淘汰、保守编辑和回归控制上。如果把上面几条定义压缩成一句话那就是所谓“skill 自进化”本质上是在研究一个非参数知识状态 St如何在真实执行中被不断更新并在验证与治理约束下稳定提升系统收益。三、四条技术路线从 survey 视角看这个方向大致已经分化成四条主线*这批工作大致可以归入四条主线。它们共享“让 skill 成为可成长资产”这一目标*但切入点明显不同路线一从轨迹中蒸馏 skill这一类工作的代表是 Trace2Skill[2] 和 SkillX[8]。Trace2Skill 的贡献不在于用了multi-agent而在于它非常清楚地把问题设成了 many-to-one 的知识归纳先收集成功与失败轨迹再并行产出 patch最后统一 merge 成可迁移的 skill 文档。它的洞见是逐条在线更新 skill 很容易被顺序依赖绑架而离线并行归纳更接近专家形成 SOP 的过程。SkillX 则把这件事推向了工程化建库。它不只是从成功轨迹里提取 skill还通过合并、过滤、主动探索去扩展和精炼 skill bank。相比前者SkillX 更像一个自动化 skill 知识生产线。它的重要价值在于说明skill 的自动构建已经不再只是概念验证而开始具备跨模型赋能和规模化复用的潜力。这一类工作的优点是抽象能力强、可迁移性好缺点是通常偏离线离真实在线环境中的持续修正还有一点距离。Trace2Skill轨迹采样 - 多分析器产出 patch - 分层 merge的三阶段pipeline路线二基于验证和诊断的闭环 skill 优化这一类是我认为最贴近“真正自进化”的路线代表作是 CoEvoSkills [3]、Memento-Skills [9] 和 SkillForge[10]。CoEvoSkills 的核心不是生成 skill而是把skill 进化设计成一个生成者与验证者的双边闭环。生成器负责改 skill验证器负责出题、诊断、升级测试真实环境再提供黑盒 pass/fail。这个设计很漂亮因为它把自进化从单边自省变成了“带对抗性的共同进化”。从方法论上说这比让模型自我检查三轮更像真正的学习系统。Memento-Skills 的贡献则在于理论抽象。它把 skill 库视为一个非参数、可成长的外部记忆层通过 read-write-reflect 闭环持续改写 skill并用任务成功率而不是语义相似度来训练 skill router。这相当于明确提出持续学习未必非要改模型参数skill 库本身就可以成为一个独立的学习层。SkillForge 则代表了另一种很重要的现实主义方向在企业垂直场景里skill 自进化未必要追求最大自由度反而更需要受约束的可靠闭环。它把脚本能力裁掉用 VFS 和白名单工具控制执行边界它不追求开放世界意义上的泛化而是追求在确定反馈、领域知识充足、专家参考答案明确的场景里持续变好。CoEvoSkillsgenerator-verifier的对抗性协同进化框架路线三群体进化与 skill 治理这一类工作的代表是 SkillClaw [4]和 EvoSkill [5]。SkillClaw 很有代表性因为它第一次把 skill 进化从单个 agent 的私有记忆提升到了多用户生态的共享资产。白天用户正常使用系统收集完整因果轨迹夜间 agentic evolver 基于共享证据去 refine、create 或 skip通过验证后再同步到所有 agent。它真正改变的是知识沉淀的位置经验不再留在会话里而进入 skill repository。EvoSkill 则进一步把重点从演化拉到治理。它最有价值的地方不是 create skill而是明确区分 create 与 edit并引入固定容量的 elite pool 做准入竞争。只有能提升独立验证表现的 skill 变体才有资格留下来。这很像在对 skill 库做进化搜索也很像在对 Agent 的能力边界做仓库治理。换句话说EvoSkill 让我们看到未来 skill 系统的核心工程挑战很可能不是发现新能力而是管理能力冗余。如果只让我选一个最能代表未来工程方向的关键词我会选 governance而不是 generation。SkillClaw通过closed-loop pipeline实现多用户agent生态系统中的集体技能进化路线四RL 场景下的策略-技能协同进化这一类是 SkillRL [6]、D2Skill[7]以及扩展意义上的 XSkill [11]。SkillRL 的价值在于它第一次较完整地把 skill 放进 RL 训练闭环里先从轨迹蒸馏 skill再冷启动 SFT 教模型学会用 skill最后在 RL 过程中根据失败样本递归扩 skill 库。它证明了 skill 不是外挂提示词而可以成为 policy learning 过程中的抽象经验层。D2Skill 则更进一步开始认真处理 skill 的粒度和治理问题。它提出 task skill 和 step skill 双粒度设计用有无 skill 注入的轨迹性能差构造 hindsight utility同时把 utility 用到奖励塑形、检索排序和剪枝淘汰上。这一点很关键因为它第一次把skill 的真实价值变成了显式可计算、可累积的信用信号。XSkill 虽然是多模态场景但它提出的双流结构很值得注意高层 skill 负责结构正确性局部 experience 负责具体情境下的动作灵活性。它的启发在于未来很多系统可能不是只维护一个 skill 库而是维护一整套层级化的知识生态。D2Skill双粒度skill建模与policy-skill 协同进化的联合训练范式四、一张表看全局这张表有一个很重要的阅读提示很多工作表面上都在谈skill learning但真正区分它们层次的是更新对象、验证信号和治理机制而不是标题里是不是写了 evolve 或 skill。五、Insight总结Insight 1外部化 policy layer这是我看完这些工作后最强烈的感受。过去我们总把 prompt、memory、tool-use policy、workflow 看成不同东西但在这些论文里它们开始被统一成一种新的对象可被显式读取、编辑、检索、验证、沉淀的外部策略层。一旦接受这个视角很多问题就会重新排序。以后大家比拼的可能不再只是底座模型谁更强而是谁拥有更稳、更可积累、更可治理的外部 skill 层。这有点像操作系统之于芯片底座决定上限但外部能力层决定系统能否长期进化。Insight 2核心瓶颈是信用分配今天让模型写一个 skill已经不难了真正难的是这次成功到底归功于哪个 skill这次失败是 skill 不行还是 skill 没被正确调用是该新建一个 skill还是修补已有 skill一个局部 patch 的收益是否足以抵消它带来的全局检索噪声D2Skill 用 hindsight utilityEvoSkill 用验证集准入CoEvoSkills 用双体协同验证实际上都在解决同一个问题如何给 skill 更新分配可信的 credit。谁能把这个问题做得更细、更稳谁就更可能把自进化从 demo 推到系统。Insight 3受约束地单调改进很多人一开始想到 skill 演化第一反应是让系统自动长出更多 skill。但 EvoSkill 提醒我们问题从来不只是skill 不够多很多时候反而是垃圾 skill 太多。一旦 skill 库开始膨胀新的问题立刻出现检索噪声上升上下文预算被占满相似 skill 彼此冲突老 skill 被新 skill 不稳定地覆盖局部修补带来整体回归最接近生产的往往不是增长幅度最大的方案而是最克制的方案。SkillClaw 强调 conservative editingSkillForge 强调 VFS 和工具白名单EvoSkill 强调有限容量和验证准入Memento-Skills 强调自动测试不过关就不能落库。这些设计背后其实都指向同一个趋势 skill 自进化的竞争很可能不是谁变化最快而是谁回归最少、爆炸半径最小、版本可回溯性最好。Insight 4走向SkillOps一句话概括这批论文的共同趋势这个方向正在从“如何生成 skill”走向“如何运营一个会自己增长的 skill 系统”。一个成熟的 SkillOps 栈至少应该包含这些环节证据采集从真实执行、失败案例、成功轨迹里拿到高质量信号知识编辑create、edit、merge、split、prune验证选择测试、准入、对比、回归检查检索路由在正确的时机把正确 skill 注入给正确任务版本治理回滚、灰度、保守发布、失效淘汰所以诸如 EvoSkill、SkillClaw、SkillForge 这种论文的产业意义可能会高于单点指标更漂亮的纯学术工作。六、结语skill 自进化可以看成 Agent 领域里一个非常像样的中观层机会。它比纯 prompt engineering 更系统因为 skill 是可组织、可治理、可验证的它比纯参数训练更灵活因为它不必每次都动模型本体它比传统 memory 更有操作性因为它沉淀的是可执行规则而不是原始日志。更重要的是它天然适合连接研究与工程研究上它是一个关于抽象、信用分配和非参数学习的课题工程上它又直接对应版本管理、回归控制和生产稳定性。而一旦 skill 层真的成为系统的一部分那么未来 Agent 的竞争可能就不只是模型之间的竞争而会是谁能让自己的 skill 资产在真实世界里越跑越厚、越改越稳、越用越聪明的竞争。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多文章