后训练新范式：为什么 DeepSeek-V4 放弃混合 RL，改用 OPD？

张开发

• 2026/5/12 11:57:58 • 15 分钟阅读

分享文章

⚙️ 工程深度：L4 · 生产级 | 📖 预计阅读：18 分钟一句话理解：先独立培养专家，再用反向 KL 无损蒸馏——OPD 从根源上消除了多目标梯度冲突。逻辑主线本文回答一个工程问题：在多维能力对齐的后训练中，为什么混合 RL 会系统性地失败，OPD 又是如何从第一性原理出发解决这个问题的？行文结构如下：认清后训练的本质——它不是在注入知识，而是在提取知识解剖混合 RL 的结构性矛盾——梯度冲突是几何事实，调权重改变不了方向OPD 第一阶段：独立专家培养（为什么，怎么做）OPD 第二阶段：反向 KL 多教师蒸馏（核心直觉 + 工程实现）实战决策场景 + 踩坑记录 + 适用边界一、后训练的本质：把"知道的"变成"能做的"这个认知纠偏很重要，因为它决定了你对后训练方案的整个判断框架。很多人把后训练理解成"给模型补充知识"——这是错的。以 DeepSeek-V3 为例，预训练阶段模型已经在 14.8T tokens 上读完了人类绝大多数知识 ✅DeepSeek-V3 技术报告。后训练要解决的问题不是"模型不知道"，而是"模型知道但做不到"。举个例子：预训练后的模型知道数学归纳法的规则，但它不会在回答问题时主动展开严格的推理步骤；它知道代码应该有异常处理，但不会自发地写出健壮的代码。后训练通过强化学习让模型"养成"这些习惯。所以后训练的数学本质是：在预训练模型的参数空间中，找到一条路径，将"潜在能力"提取为"显式行为"。这条路径的难度，取决于你同时提取几种能力，以及这些能力的优化方向是否一致。二、混合 RL 的结构性困境：调权重为什么治标不治本2.1 梯度冲突是几何事实多目标混合 RL 的损失函数是各目标的加权和：L_total = w₁·L_math + w₂·L_code + w₃·L_writing + w₄·L_safety ∇L_total = w₁·∇L_math + w₂·∇L_code + w₃·∇L_writing + w₄·∇L_safety问题出在：这些梯度方向在参数空间中经常互相冲突。当 ∇L_math 和 ∇L_writing 的夹角大于 90° 时，优化数学能力的梯度步骤，会同时把写作能力的参数推离最优点。这不是权重的"量级"问题，而是"方向"问题。用一个直观的比喻：两个人同时拉你，一个往左拉，一个往右拉。你给左边的人 60% 力气、右边 40% 力气，结果是你停在中间——两边都没到。调节权重只能改变你停在哪里，无法让你同时到达两边。权重调节只能在帕累托前沿上选择一个折中点，无法突破前沿本身。2.2 能力互蚀的实证DeepSeek-V3 的后训练实践已经记录了这个现象 💡工程推断（：对齐维度单独 RL 得分混合 RL 得分退化幅度数学推理（GSM8K）92.1%86.3%-5.8%代码生成（HumanEval）88.4%82.7%-5.7%创意写作（人工评测）4.2/53.5/5-14%安全对齐95.2%93.8%-1.4%安全维度退化最小，因为安全约束本质上是"不做某事"的负面约束，与大多数能力的梯度方向不完全对抗。但推理、代码、写作之间的互蚀是严重的——这三个能力对应的神经网络表示在参数空间中高度正交，梯度方向天然冲突。三、OPD 第一阶段：独立专家培养3.1 核心思路——先分而治之OPD（On-Policy Distillation）的第一阶段答案很简单：为每个领域独立训练一个专家模型，每个专家只优化自己的目标，梯度方向干净，没有来自其他目标的干扰。基础模型（预训练 checkpoint） ├── 数学 SFT → 数学 GRPO → 数学专家 🧮 ├── 代码 SFT → 代码 GRPO → 代码专家 💻 ├── 写作 SFT → 写作 GRPO → 写作专家 ✍️ └── 安全 SFT → 安全 GRPO → 安全专家 🛡️ ↓ Multi-Teacher OPD ↓ 学生模型（全能型）每条路径完全独立，不存在梯度相互干扰的机会。3.2 为什么用 GRPO 而不是只用 SFT为什么每个专家不能只做 SFT？因为 SFT 只能让模型"模仿示范"，无法让模型"超越示范"。数学推理中，最优解法可能不在 SFT 数据集里，但模型通过 RL 搜索可以自主发现更短的证明路径。专家模型需要在其领域内达到"超越人类示范"的水平，否则蒸馏后的学生模型天花板太低。标准做法是两步走：SFT 做基础能力建立，GRPO 做能力上限拓展。DeepSeek 选择 GRPO（Group Relative Policy Optimization）而非 PPO，核心原因是省掉了价值网络技术报告。GRPO 的核心思想：对同一个 prompt，同时采样一组回答，用组内奖励的相对排名作为优势估计，替代 PPO 中需要单独训练的 Value Network。这就像考试不看你考了多少分，而是看你在班级里排第几——相对排名信号比绝对分数稳定得多，方差更低，计算成本更小（省掉约 1/3 的额外参数量）。GRPO 的优势估计计算本质上是一个 z-score 归一化：

更多文章

前端开发 2026/5/12 11:51:37

别再只会用A了！游戏寻路实战：用JPS和HPA优化你的Unity项目性能

别再只会用A了！游戏寻路实战：用JPS和HPA优化你的Unity项目性能当你的RTS游戏中有上百个单位同时寻路时，是否遇到过明显的性能卡顿？或者当开放世界地图的路径计算消耗了过多内存时，是否感到束手无策？这些问…

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度新手首次使用Taotoken从注册到完成API调用的全流程本文为零基础的开发者设计，我们将手把手带领你完成从Taotoken平台注…

张开发

前端开发 2026/5/12 11:16:41

从555nm黄绿光到你的手机屏幕：手把手解读光谱响应曲线与视觉舒适度的关系

从555nm黄绿光到你的手机屏幕：光谱响应曲线如何塑造视觉舒适度深夜刷手机时，你是否经历过眼睛干涩刺痛却无法放下屏幕的煎熬？这背后隐藏着一个关于人类视觉系统的古老密码——我们对555nm黄绿光的特殊偏爱。这种进化形成的生物特性&#xf…

张开发

后训练新范式：为什么 DeepSeek-V4 放弃混合 RL，改用 OPD？

最新文章

WebPShop终极指南：如何在Photoshop中轻松实现WebP图像压缩与动画制作

对比直接使用官方API，通过Taotoken聚合调用在账单清晰度上的差异

轻量级分布式链路追踪LDLT：从核心原理到Spring Boot集成实战

护照MRZ图像预处理与OCR校验流水线实战

从NASA官网到出图：Python+ArcGIS批量处理SRTM DEM数据，高效制作中国地形图

保姆级教程：彻底解决PyTorch安装中的‘VC_redist.x64.exe安装失败(Error 1402)’问题

推荐文章

AI驱动蛋白质工程：从语言模型与拓扑数据分析到高效工作流构建

AI眼科医疗：从CNN、GAN到RNN的疾病诊断与预测技术演进

AI付费订阅与API稳定调用全攻略：支付、中转与避坑指南

GPT增强众筹文案对捐赠偏好影响的实验设计与分析

构式语法与AI融合：从理论到计算实现的双向赋能

基于Spring Boot的游戏攻略交流平台毕设

相关文章

R 4.5新增s2_geometry()函数实测：全球10亿点集距离计算耗时从47分钟降至89秒（附基准测试完整复现代码）

Hotkey Detective：3分钟解决Windows热键冲突的完整指南

5步掌握跨平台数据采集：MediaCrawler智能爬虫工具终极指南

预推免‘赶考’全记录：一周内辗转广州、长沙四场线下复试的真实体验与行程攻略

HALCON 20110 + Python 3.8 环境搭建避坑指南：从dll配置到复杂测量功能实现

算法公平性审查官认证考试全攻略：软件测试从业者的进阶之路

分享文章

更多文章

别再只会用A了！游戏寻路实战：用JPS和HPA优化你的Unity项目性能

10倍速硬字幕提取：SubtitleOCR如何让视频字幕转换变得如此简单

百度网盘极速下载：BaiduPCS-Web完整使用指南与核心技术解析

AwesomeCursorPrompt：结构化提示词库，提升AI编程协作效率

10分钟上线智能聊天机器人：Viber Susi AI Bot全流程实战指南

3大技术架构：用PptxGenJS构建企业级自动化演示系统

LRCGET：如何一站式解决离线音乐库的歌词同步难题

终极指南：5分钟掌握FanControl中文风扇控制软件

我给健康 Agent 装了个 3D 身体：从聊天框到具身智能的实战记录

ESP32 Flash加密实战：从eFuse配置到安全启动的深度解析

新手首次使用Taotoken从注册到完成API调用的全流程

从555nm黄绿光到你的手机屏幕：手把手解读光谱响应曲线与视觉舒适度的关系