信用分配的范式跃迁:当稀疏奖励遭遇百万 Token 长廊

张开发
2026/6/8 7:28:47 15 分钟阅读

分享文章

信用分配的范式跃迁:当稀疏奖励遭遇百万 Token 长廊
机制链一个被延迟放大的训练瓶颈2026 年 4 月独立研究者 Chenchen Zhang 在 arXiv 发布了一篇系统性综述将大型语言模型强化学习LLM RL中的信用分配Credit Assignment问题推到了聚光灯下。这不是一个新颖的问题——自 1980 年代 Sutton 提出 Temporal Credit Assignment 以来它便一直是 RL 的核心难题。但在 LLM 时代这个问题的规模、形态和紧迫性都发生了质变。注释Temporal Credit Assignment由 Richard Sutton 在 1984 年正式定义指在强化学习中当一个智能体在一段时间内执行了一系列动作后只收到一个最终奖励时如何确定过去每个动作对该奖励的贡献程度。这是所有基于延迟奖励的序列决策问题的数学核心。问题的本质可以用一个简洁的公式概括CA 难度 ∝ 轨迹长度 × 环境随机性 × 动作异质性 中间状态可验证性 \text{CA 难度} \propto \frac{\text{轨迹长度} \times \text{环境随机性} \times \text{动作异质性}}{\text{中间状态可验证性}}CA难度∝中间状态可验证性轨迹长度×环境随机性×动作异质性​注释公式解读轨迹长度Trajectory Length智能体从起点到终点执行的动作序列长度。越长越难追溯每个动作的影响。环境随机性Environmental Stochasticity相同动作是否总是导致相同结果。随机性越高因果关系越模糊。动作异质性Action Heterogeneity动作空间中不同类型的动作如生成文本 vs 点击按钮混合程度。异质性越高统一评估越困难。中间状态可验证性Intermediate Verifiability能否独立判断中间步骤的正确性。可验证性越低信用分配越依赖间接推断。在经典的 Reasoning RL 场景中如 DeepSeek-R1 的数学推理这个公式的分子相对较小轨迹长度在10 3 10^3103量级环境近乎确定动作类型单一全部是文本生成且中间步骤推导过程可以通过规则或验证器部分检验。但在 Agentic RL 场景中分子急剧膨胀轨迹长度跃升至10 5 10^5105–10 6 10^6106Tokens100 轮交互环境高度随机网页加载延迟、弹窗出现时机不可预测动作异质性极高点击、滑动、输入文本、等待页面加载、读取视觉信息且绝大多数中间状态无法被独立验证——你如何判定在第 37 步点击菜单按钮这个动作本身是好是坏维度Reasoning RLAgentic RL难度放大倍数轨迹长度500 500500–30 000 30\,00030000tokens100 000 100\,000100000–1 000 000 1\,000\,0001000000tokens10 ∼ 100 × 10\sim100\times10∼100×环境确定性高输出决定下一步低随机转移 部分可观测质变动作类型单一文本生成高度异质点击/滑动/输入/等待/感知质变中间可验证性高推导步骤可规则检验极低无法独立判定单步好坏质变信用分配状态 趋于成熟 处于萌芽—注释Reasoning RL 与 Agentic RL 的范式差异Reasoning RL训练模型在单次生成中完成复杂推理如解数学题、写代码。其关键特征是确定性转移和可验证中间状态——模型生成第t tt个 token 后下一个状态完全由当前输出决定且推理链的每一步可以用外部验证器如代码执行器、数学符号检查器检验。Agentic RL训练模型与外部环境进行多轮交互如操作电脑、使用手机浏览器。其关键特征是随机性和部分可观测性——环境可能以不可预测的方式响应且模型无法直接访问系统的全部内部状态如后台 JavaScript 变量、网络延迟。二维分类47 种方法的全景图谱Chenchen Zhang 的核心方法论贡献是将 2024 年至 2026 年初发表的47 种信用分配方法41 种核心方法 6 种辅助技术组织进一个二维分类体系。第一维度分配粒度粒度决定了奖励信号被拆解的精细程度粒度层级描述代表方法适用场景Token 级精确到单个词元的贡献VinePPO短文本生成、代码补全Segment 级分配到连续片段SPO, SCAR中等长度推理链Step 级分配到逻辑步骤PURE, HICRA, SPRO, PRM 系列数学推理、链式思维Turn 级分配到对话/交互轮次AgentPRM, ArCHer, C3, CCPO多轮工具使用、GUI 操作Multi-Agent 级分配到多个智能体CARL, 博弈论方法多智能体协作注释各粒度的技术本质Token 级利用策略梯度估计每个 token 对最终回报的边际影响。计算成本高但在短序列上精度最优。Segment 级将连续 token 分组降低方差。SPOSegment Policy Optimization通过动态分段平衡精度与效率。Step 级与人类标注的推理步骤对齐。PRMProcess Reward Model为每个推理步骤打分但依赖昂贵的步骤级标注。Turn 级将交互历史按轮次切分。适用于 Agentic 场景但面临单轮内部如何再分配的子问题。Multi-Agent 级引入博弈论工具如 Shapley 值计算每个智能体对团队回报的边际贡献。第二维度方法论家族方法论核心思想代表方法特点Monte Carlo多采样估计期望回报VinePPO, SPO, SCAR无偏但方差大适合短轨迹Temporal Difference自举bootstrapping减少方差PRM, AgentPRM, PURE依赖价值估计的准确性Model-based学习环境模型进行规划ArCHer可以想象未来但模型误差会累积Game-theoretic博弈论分配边际贡献SCAR (Shapley), C3, CCPO理论基础扎实计算昂贵Info-theoretic信息增益驱动CAPO衡量动作带来的信息价值分类揭示的结构将两个维度交叉可以观察到明显的密度不均衡密度分布图概念性 Token 级 ████████████████████ VinePPO 一家独大 Segment 级 ████████ SPO, SCAR 填补空白 Step 级 ████████████████████████████ PRM 家族繁荣 Turn 级 ████ Agentic 方法稀疏且分散 Multi-Agent ██ 仅 6 篇专用论文 MC TD Model Game Info ───────────────────────────── Token ████ Segment ████ ████ Step ████ ████████████████████ Turn ████ ████ ████ ████ Multi-Agent ████ ████这个分布暴露了一个核心事实Step 级以下的信用分配已经形成了相对稳定的技术栈但 Turn 级及以上的 Agentic 场景仍是一片待开垦的土地。Reasoning CA一个正在收敛的技术栈在 Reasoning RL 领域信用分配已经呈现出收敛迹象。Chenchen Zhang 将这一领域的证据级别标注为[SE]强实证支持并识别出两条主线主线一Process Reward ModelPRM范式PRM 的核心是将终端奖励分解为逐步奖励R ( τ ) ∑ i 1 T r i 其中 r i PRM ( s i , a i ) R(\tau) \sum_{i1}^{T} r_i \quad \text{其中} \quad r_i \text{PRM}(s_i, a_i)R(τ)i1∑T​ri​其中ri​PRM(si​,ai​)注释PRM 的数学本质R ( τ ) R(\tau)R(τ)是整条轨迹τ \tauτ的总奖励r i r_iri​是第i ii步的过程奖励由过程奖励模型 PRM 根据状态s i s_isi​和动作a i a_iai​估计。PRM 的训练通常需要人工标注或自动构造的步骤级正确性标签这是其最大的成本瓶颈。从 Math-Shepherd 到 OmegaPRM再到 PURE 和 SPROPRM 家族的核心改进集中在两个方向降低标注成本通过自动生成步骤标签和提高泛化性通过更好的模型架构。主线二Critic-Free 组比较GRPO 及其变体代表了另一条更轻量的路径。其数学直觉可以概括为∇ θ J ≈ E [ ∑ i 1 G π θ ( a i ∣ s ) π θ old ( a i ∣ s ) ⋅ A i ] \nabla_\theta J \approx \mathbb{E}\left[ \sum_{i1}^{G} \frac{\pi_\theta(a_i|s)}{\pi_{\theta_{\text{old}}}(a_i|s)} \cdot A_i \right]∇θ​J≈E[i1∑G​πθold​​(ai​∣s)πθ​(ai​∣s)​⋅Ai​]其中优势函数A i A_iAi​通过组内相对归一化计算不需要单独的 Critic 网络。注释GRPO 的优势函数计算GRPO 从同一问题采样G GG条答案一个组将组内奖励归一化得到优势值A i R i − mean ( { R j } j 1 G ) std ( { R j } j 1 G ) A_i \frac{R_i - \text{mean}(\{R_j\}_{j1}^G)}{\text{std}(\{R_j\}_{j1}^G)}Ai​std({Rj​}j1G​)Ri​−mean({Rj​}j1G​)​这意味着答案的质量不是绝对判断的而是相对同一组其他答案判断的。这种方法在最终奖励稀疏但可比较的场景下非常有效——比如同一道数学题的不同解法。然而GRPO 的有效运行依赖一个关键假设组内样本具有可比性。在 Reasoning 场景下这个假设成立——同一道题的多个答案最终对错可以直接比较。但在 Agentic 场景下这个假设崩塌了两次独立的手机操作任务即使从相同初始状态开始也可能因为环境随机性而在第 5 步就进入完全不同的状态空间之后的步骤不再具备可比性。Agentic CA新生的方法论家族Agentic RL 的信用分配问题正在催生一批在经典 RL 中没有直接对应物的新方法。Chenchen Zhang 将这些方法的证据级别标注为[LS]有限但暗示性表明领域仍处于早期探索阶段。家族一Hindsight Counterfactual后见之明与反事实核心思想利用已经完成的轨迹信息事后重构如果当时做了不同选择会怎样。方法机制关键创新HCAPO用生成式验证扩展后见信用LLM 生成反事实轨迹进行事后评估C3Leave-one-out 分析移除单个 Agent 轮次观察对团队回报的影响CCPO反事实策略优化通过环境重执行或模型近似估计反事实基线注释反事实分析Counterfactual Analysis反事实分析源于因果推断领域核心问题是如果当时采取了不同的行动结果会如何在 Agentic RL 中这通常通过环境重执行re-execution实现——将轨迹回退到某个决策点尝试替代动作观察新的结果。挑战在于许多真实环境如网页、手机 App不支持完美的状态保存和回退因此研究者也开发了模型近似方法——训练一个环境模型来想象反事实结果。Chenchen Zhang 注意到一个 bibliometric 信号2026 年 3 月单一周内就有三篇独立的反事实信用分配论文同时出现。这不是巧合而是领域加速的标志。家族二Hierarchical Architectures层级架构方法层级设计解决的核心问题ArCHer高层策略选择子目标低层策略执行长 horizon 中的信用稀释CARL聚焦关键动作Critical Actions少数动作决定成败的稀疏性层级架构的直觉是与其在百万 Token 的长廊中为每一步分配精确的信用不如先将轨迹分解为元动作macro-actions在高层分配信用再在低层细化。这类似于人类的管理结构——CEO 不负责审批每一笔报销只负责战略决策。家族三LLM-as-Critic这是最具 LLM 时代特色的方法论分支。其核心机制是利用大语言模型的语义理解能力对中间状态进行自然语言评估。方法Critic 形式评估对象CAPOLLM 生成的信息增益评分动作的信息价值SWEET-RLLLM 语义评判交互步骤的合理性LaReLLM 语言化奖励中间状态的描述性评价CriticSearchLLM 驱动的搜索式评估多候选步骤的比较排序注释为什么 LLM-as-Critic 是独特的经典 RL 的 Critic 接收数值状态向量输出标量价值V ( s ) ∈ R V(s) \in \mathbb{R}V(s)∈R。这个设计假设状态的好坏可以用单一数值衡量。但 LLM 面对的中间状态如一张手机截图 已执行动作历史的好坏是多维且语义丰富的。用 0.5 0.50.5还是− 0.2 -0.2−0.2来评价当前打开了设置菜单但还没找到蓝牙选项既损失信息又难以解释。LLM-as-Critic 让 Critic 输出自然语言评价——“步骤正确但方向需要调整”——这种评价既可以作为训练信号也可以被人类理解和调试。这是传统数值 Critic 无法提供的。开放问题与研究路线图综述的最后部分勾勒了信用分配领域的前沿开放问题问题域核心挑战当前状态Multi-Agent 信用多个 LLM Agent 协作时如何区分个体贡献与团队涌现仅 6 篇专用论文从 nascent “到” active front Ultra-Long Horizons10 6 10^6106token 的交互现有方法的计算和方差如何控制几乎没有系统研究Exploration-Credit 耦合信用分配依赖足够的探索覆盖但探索本身又受信用信号引导——如何打破这个循环依赖未被明确讨论LLM-as-Critic 的可靠性LLM 裁判是否比传统价值函数更稳定是否存在系统性的评判偏见完全开放的实证问题Chenchen Zhang 的结论是审慎的Agentic RL 不是 Reasoning RL 的简单扩展它质性地重塑了信用分配的问题景观。Reasoning CA 的成熟工具GRPO、PRM在 Agentic 场景中面临根本性失效而新工具反事实分析、层级架构、LLM-as-Critic仍处于概念验证阶段。结构性结论这项综述的价值不仅在于整理更在于制图。它用一张二维分类表让一个原本模糊的方法论空间变得可导航。对于从业者这张表是一个方法选择决策树的起点对于研究者它揭示了系统性的空白地带——尤其是 Turn 级和 Multi-Agent 级信用分配的稀疏性。一个值得关注的结构性信号是这篇综述由独立研究者完成而非某个大型实验室。这可能暗示信用分配作为一个跨领域的基础问题其重要性尚未被工业界的资源分配机制充分识别。在 2025–2026 年的 LLM 竞赛中算力和数据仍然是显性的竞争维度而信用分配这类训练基础设施问题可能正处于被低估的窗口期。 论文详细信息标题: From Reasoning to Agentic: Credit Assignment in Reinforcement Learning for Large Language Models作者: Chenchen ZhangIndependent Researcher机构: Independent ResearcherarXiv ID: 2604.09459发布日期: 2026 年 4 月 10 日v12026 年 4 月 13 日v2分类: cs.CLComputation and LanguageGitHub 资源: Awesome-Credit-Assignment-in-LLM-RL文献覆盖: 2024 年 1 月至 2026 年 4 月47 种方法41 种核心 CA 方法 6 种辅助技术通过 arXiv、Semantic Scholar、Google Scholar 关键词搜索 前向/后向引文追踪 主要会议系统监测NeurIPS、ICML、ICLR、ACL 2025核心贡献:首个专注于 LLM RL 信用分配的系统性综述二维分类体系粒度 × 方法论三类可复用资源机器可读论文清单CSV/JSON、报告检查清单、基准协议规范明确刻画 Reasoning → Agentic 的质性跃迁关键数字:47 种方法 surveyed41 种核心 CA 方法 6 种辅助技术Reasoning 轨迹长度500 500500–30 000 30\,00030000tokensAgentic 轨迹长度100 000 100\,000100000–1 000 000 1\,000\,0001000000tokens100 turnsMulti-Agent CA 论文6 篇从 nascent 到 active front 的增长2026 年 3 月单周三篇反事实 CA 论文同时出现

更多文章