005、演进:从GPT到GPT-3/4——模型规模化、思维链与涌现能力

张开发
2026/4/18 3:31:51 15 分钟阅读

分享文章

005、演进:从GPT到GPT-3/4——模型规模化、思维链与涌现能力
一、从一次深夜调试说起上周排查一个推理服务的问题日志里反复出现一个奇怪现象输入一段包含多步骤逻辑的用户提问模型直接跳过了中间推理输出了一个看似合理但实际错误的答案。这让我想起三年前用GPT-2做代码生成的时候它连一个简单的两层循环都经常写错括号。而今天用GPT-4它能顺着我的模糊需求一步步推导出完整的方案框架。这中间的进化远不止是参数量的堆砌。从GPT到GPT-3再到GPT-4这条技术路径上至少有三个关键转折模型规模化的工程实践、思维链提示的发现、以及涌现能力的不可预测性。今天我们就拆开看看这些变化到底是怎么发生的。二、GPT到GPT-3规模化的暴力美学第一代GPT2018出来的时候我们在团队内部跑过实验。1.17亿参数在特定任务上微调后效果不错但泛化能力明显不足。那时候大家的共识是架构没问题但数据和算力没跟上。OpenAI 后来走的路线非常直接——放大持续放大。GPT-22019到了15亿参数GPT-32020直接冲到1750亿。这里面有个关键认知转变大模型不是小模型的简单放大而是量变引发质变的开始。我印象很深的是GPT-3论文里那张缩放定律Scaling Laws的图损失函数随着模型规模、数据量、计算量的幂律关系平滑下降。这意味着只要你敢堆资源性能就能稳定提升。这在工程上太有吸引力了——不需要频繁改架构拼命扩规模就行。但规模化背后全是工程魔鬼显存墙单卡装不下必须做模型并行。我们早期试过手动切分参数那个梯度同步的代码写得人头皮发麻。训练稳定性千亿参数训练动不动就数值爆炸混合精度训练里loss scaling调得想哭。数据管线TB级别的文本清洗、去重、质量过滤光数据预处理就能写一个系列。这里踩过一个大坑盲目追求参数量忽略了数据质量。有一次我们照搬开源的爬虫数据没做严格去重训练到中期发现模型开始逐字背诵训练集里的重复段落。所以GPT-3强调的“高质量、高多样性、大规模”数据真的是血泪经验。三、思维链提示工程的奇点2022年初看到Google那篇《Chain-of-Thought Prompting》论文时我正在调试一个数学推理任务。传统做法是把问题和选项丢给模型让它直接选答案准确率卡在60%上不去。论文里那个“Let’s think step by step”的魔法咒语我在Colab上试了一下同一个模型准确率飙到78%。这根本不是模型架构的改动纯粹是输入提示Prompt设计的突破。思维链的核心思想是让模型把中间推理步骤显式地生成出来而不是直接跳到最后答案。这相当于把人类的“慢思考”过程外化了。我们在实际业务里应用时有几个实用发现思维链对复杂逻辑、数学计算、多约束规划类任务提升最明显对简单分类任务反而可能降低速度。链的长度需要控制。有时候模型会陷入无限细节循环需要加一句“请用不超过三步推理”来约束。不同领域的思维链模板差异很大。代码生成适合用“先分析需求再设计接口最后实现”数学题适合用“提取已知条件回忆公式代入计算”。有个经典错误示范曾经有同事在prompt里写“请详细推理”结果模型输出了两屏无关的废话。后来改成“请分三步推理每步不超过一句话”效果立刻好了。提示工程就是这样差几个词效果天壤之别。四、GPT-4与涌现能力不可预测的智能边界GPT-4的技术报告写得相当“克制”很多细节没公开。但从业内泄露的信息和我们的实测来看GPT-4相比GPT-3有几个质的不同多模态理解虽然公开版暂时只开放文本接口但其内部已具备图像理解能力。这不仅仅是多了一个输入通道而是跨模态表征的统一——文本和图像在同一个向量空间里对齐。我们做过实验给它一张流程图照片它能直接生成对应的Python代码。这种能力在GPT-3时代是不可想象的。指令遵循的精密度GPT-3时代你需要精心设计promptGPT-4对模糊指令的容忍度高了很多。比如你写“用Python写个快速排序顺便解释一下时间复杂度”它能先给出代码再分段分析最好、最坏、平均情况。这背后可能是RLHF人类反馈强化学习和指令微调的大规模应用。涌现能力Emergent Abilities这是最玄乎也最实际的部分。所谓涌现就是模型规模超过某个阈值后突然获得了一些小模型没有的能力。比如零样本跨语言翻译没专门训练过中文到德语的语料但能翻译得不错。概念组合把“莎士比亚风格”和“产品发布会文案”组合起来生成一段像模像样的文本。反事实推理“如果二战没有发生世界格局会怎样”——虽然答案不一定对但至少能展开合理推演。这些能力不是设计出来的而是规模化训练后自然浮现的。这给工程实践带来一个挑战你无法通过小规模实验预测大模型的所有能力。必须保持持续探索和测试。五、规模化时代的工程启示走完从GPT到GPT-4的技术回顾有几点个人经验值得分享不要盲目追求参数量千亿参数模型训练一次成本数百万美元如果不是OpenAI这种资本密度建议从模型裁剪、量化、蒸馏入手。我们去年把一个百亿模型蒸馏到三十亿性能损失不到5%推理速度提升三倍。提示工程是必备技能未来工程师的核心竞争力之一可能是设计高质量prompt的能力。建议团队内部建立prompt案例库把那些验证过的优质模板共享出来。涌现能力需要系统性评估上线大模型前别只测常规任务。设计一些边缘案例跨领域知识组合、反事实问题、长链条逻辑——这些地方才是大模型的真正战场。保持对不可解释性的敬畏大模型为什么突然就会了某项技能很多时候我们给不出确切答案。工程上要建立监控机制特别是当模型开始处理敏感业务时日志里必须保留完整的输入输出链。最后说个实际体会三年前我们还在争论Transformer会不会替代LSTM今天已经在讨论万亿参数时代的架构挑战。这个领域的变化速度已经超过了大多数人的学习速度。唯一能做的就是保持动手、保持实验、保持对技术本质的好奇——毕竟下一个突破可能就藏在某个深夜调试的日志里。下期预告当我们以为缩放定律会一直有效时Mamba带着状态空间模型来了。它试图用结构化状态空间替代注意力机制这到底是颠覆还是补充我们下次再拆。

更多文章