后训练新范式:为什么 DeepSeek-V4 放弃混合 RL,改用 OPD?

张开发
2026/5/12 11:57:58 15 分钟阅读

分享文章

后训练新范式:为什么 DeepSeek-V4 放弃混合 RL,改用 OPD?
⚙️ 工程深度:L4 · 生产级 | 📖 预计阅读:18 分钟一句话理解:先独立培养专家,再用反向 KL 无损蒸馏——OPD 从根源上消除了多目标梯度冲突。逻辑主线本文回答一个工程问题:在多维能力对齐的后训练中,为什么混合 RL 会系统性地失败,OPD 又是如何从第一性原理出发解决这个问题的?行文结构如下:认清后训练的本质——它不是在注入知识,而是在提取知识解剖混合 RL 的结构性矛盾——梯度冲突是几何事实,调权重改变不了方向OPD 第一阶段:独立专家培养(为什么,怎么做)OPD 第二阶段:反向 KL 多教师蒸馏(核心直觉 + 工程实现)实战决策场景 + 踩坑记录 + 适用边界一、后训练的本质:把"知道的"变成"能做的"这个认知纠偏很重要,因为它决定了你对后训练方案的整个判断框架。很多人把后训练理解成"给模型补充知识"——这是错的。以 DeepSeek-V3 为例,预训练阶段模型已经在 14.8T tokens 上读完了人类绝大多数知识 ✅DeepSeek-V3 技术报告。后训练要解决的问题不是"模型不知道",而是"模型知道但做不到"。举个例子:预训练后的模型知道数学归纳法的规则,但它不会在回答问题时主动展开严格的推理步骤;它知道代码应该有异常处理,但不会自发地写出健壮的代码。后训练通过强化学习让模型"养成"这些习惯。所以后训练的数学本质是:在预训练模型的参数空间中,找到一条路径,将"潜在能力"提取为"显式行为"。这条路径的难度,取决于你同时提取几种能力,以及这些能力的优化方向是否一致。二、混合 RL 的结构性困境:调权重为什么治标不治本2.1 梯度冲突是几何事实多目标混合 RL 的损失函数是各目标的加权和:L_total = w₁·L_math + w₂·L_code + w₃·L_writing + w₄·L_safety ∇L_total = w₁·∇L_math + w₂·∇L_code + w₃·∇L_writing + w₄·∇L_safety问题出在:这些梯度方向在参数空间中经常互相冲突。当 ∇L_math 和 ∇L_writing 的夹角大于 90° 时,优化数学能力的梯度步骤,会同时把写作能力的参数推离最优点。这不是权重的"量级"问题,而是"方向"问题。用一个直观的比喻:两个人同时拉你,一个往左拉,一个往右拉。你给左边的人 60% 力气、右边 40% 力气,结果是你停在中间——两边都没到。调节权重只能改变你停在哪里,无法让你同时到达两边。权重调节只能在帕累托前沿上选择一个折中点,无法突破前沿本身。2.2 能力互蚀的实证DeepSeek-V3 的后训练实践已经记录了这个现象 💡工程推断(:对齐维度单独 RL 得分混合 RL 得分退化幅度数学推理(GSM8K)92.1%86.3%-5.8%代码生成(HumanEval)88.4%82.7%-5.7%创意写作(人工评测)4.2/53.5/5-14%安全对齐95.2%93.8%-1.4%安全维度退化最小,因为安全约束本质上是"不做某事"的负面约束,与大多数能力的梯度方向不完全对抗。但推理、代码、写作之间的互蚀是严重的——这三个能力对应的神经网络表示在参数空间中高度正交,梯度方向天然冲突。三、OPD 第一阶段:独立专家培养3.1 核心思路——先分而治之OPD(On-Policy Distillation)的第一阶段答案很简单:为每个领域独立训练一个专家模型,每个专家只优化自己的目标,梯度方向干净,没有来自其他目标的干扰。基础模型(预训练 checkpoint) ├── 数学 SFT → 数学 GRPO → 数学专家 🧮 ├── 代码 SFT → 代码 GRPO → 代码专家 💻 ├── 写作 SFT → 写作 GRPO → 写作专家 ✍️ └── 安全 SFT → 安全 GRPO → 安全专家 🛡️ ↓ Multi-Teacher OPD ↓ 学生模型(全能型)每条路径完全独立,不存在梯度相互干扰的机会。3.2 为什么用 GRPO 而不是只用 SFT为什么每个专家不能只做 SFT?因为 SFT 只能让模型"模仿示范",无法让模型"超越示范"。数学推理中,最优解法可能不在 SFT 数据集里,但模型通过 RL 搜索可以自主发现更短的证明路径。专家模型需要在其领域内达到"超越人类示范"的水平,否则蒸馏后的学生模型天花板太低。标准做法是两步走:SFT 做基础能力建立,GRPO 做能力上限拓展。DeepSeek 选择 GRPO(Group Relative Policy Optimization)而非 PPO,核心原因是省掉了价值网络技术报告。GRPO 的核心思想:对同一个 prompt,同时采样一组回答,用组内奖励的相对排名作为优势估计,替代 PPO 中需要单独训练的 Value Network。这就像考试不看你考了多少分,而是看你在班级里排第几——相对排名信号比绝对分数稳定得多,方差更低,计算成本更小(省掉约 1/3 的额外参数量)。GRPO 的优势估计计算本质上是一个 z-score 归一化:

更多文章