终于,学界找到了深度学习的「牛顿定律」

张开发
2026/4/27 10:12:31 15 分钟阅读

分享文章

终于,学界找到了深度学习的「牛顿定律」
来源机器之心编辑冷猫深度学习到底有没有科学理论这是一个很微妙的时代。一边是大模型以令人眩晕的速度迭代参数量从百亿冲向万亿另一边是学术界的一片沉默 —— 我们依然没有找到深度学习的基本理论神经网络仍然是个黑盒子。LeCun 在 X 上直言不讳「深度学习的理论基础仍然是一片荒原。」Geoffrey Hinton 多次在公开场合表达类似观点深度学习的成功更像炼金术而非科学 —— 我们知道什么有效但不知道为什么有效。但就在这片荒原上一道裂缝正在被撬开。最近由来自 UC Berkeley、哈佛、斯坦福等名校的 14 名研究者组成的研究团队发表了一篇论文系统性地梳理了过去十年间散落在各处的理论碎片并将它们拼成了一幅完整的图景。他们给这个正在形成的理论体系起了一个名字 ——Learning Mechanics学习力学。论文标题There Will Be a Scientific Theory of Deep Learning论文链接https://arxiv.org/pdf/2604.21691就像经典力学统一了天体运动与地面落体、统计力学架起了微观粒子与宏观热现象之间的桥梁、量子力学重新定义了物质的基本存在方式一样「学习力学」试图为神经网络的学习过程建立一套第一性原理级别的科学框架。基础理论去哪了过去十五年深度学习的每一次突破几乎都来自工程直觉和大规模实验而非理论推导。AlexNet 靠的是 GPU 并行计算的偶然发现ResNet 来自何恺明对梯度消失问题的修补Transformer 的注意力机制最初是为了解决序列建模中的长距离依赖……这种「先做出来再说」的模式带来了惊人的应用成果但也留下了一个尴尬的现实深度学习研究者面对一个训练失败的模型往往只能靠经验和运气来调参。论文研究团队的核心贡献在于识别出五条研究线索。它们分别是可解的理想化设定在简化条件下我们能否精确求解神经网络的动力学—— 深度线性网络的全局最优解、NTK 极限下的谐振子类比对应物理学中的谐振子与氢原子。可处理的极限当网络趋向某些极端时行为是否变得可预测—— 宽网络极限下的惰性 / 丰富二分法、深度 / 批量 / 学习率极限对应热力学极限。经验定律是否存在跨越架构和数据集的普适规律—— 神经缩放律、稳定性边缘Edge of Stability对应开普勒定律与斯涅尔定律。超参数理论能否实现超参数的零样本迁移——μP 参数化、中心流、超参数解耦与消除对应量纲分析。普适行为不同架构 / 数据集学到的表征为何如此相似—— 表征收敛现象、通用表征假设对应临界普适性。这五条线索并非平行发展而是正在向同一个核心汇聚 —— 一个能够描述神经网络学习过程的统一理论框架。我们知道在拉瓦锡之前化学本质上也是「炼金术」—— 人们知道混合某些物质会产生特定反应但不理解背后的原子机理。直到元素周期表和化学反应理论的建立化学才从经验积累跃升为一门精密科学。深度学习正处于类似的转折点。过去十年的高速增长本质上是经验主义驱动的「炼金时代」—— 我们发现了很多有效的配方ResNet、Transformer、Adam 优化器但对这些配方为什么有效缺乏根本性的理解。「学习力学」的目标就是成为深度学习领域的「元素周期表」。「学习力学」的五根支柱物理学的双子星这是整篇论文最精彩的部分。可解的理想化设定 —— 神经网络里的「氢原子」物理学的发展史告诉我们任何成熟的理论都必须从一个可以精确求解的简化模型开始。经典力学有谐振子和开普勒问题量子力学有氢原子 —— 这些都是高度理想化的系统但它们提供了理解更复杂系统的概念基础。深度学习领域也找到了自己的「氢原子」深度线性网络Deep Linear Networks。 当激活函数被替换为恒等映射时一个任意深度的多层感知机退化为一个矩阵乘积。研究者证明了 SGD 在这种网络上总能找到全局最优解并且可以精确描述每一步更新的轨迹。更重要的是深度线性网络的许多定性特征如奇异值的动态演化在非线性网络中也得到了保留。NTKNeural Tangent Kernel极限。 当神经网络的宽度趋于无穷大时网络在训练过程中的行为可以用一个固定的核函数来描述 —— 这就是 NTK 理论的核心洞见。在这个极限下神经网络的训练等价于在由 NTK 定义的再生核希尔伯特空间RKHS中进行核回归。这意味着我们可以用核方法的语言来精确预测无穷宽网络的训练动态。论文特别强调了 NTK 与量子力学的类比NTK 极限下的神经网络其行为类似于量子力学中的谐振子或氢原子 —— 两者都是可以通过解析方法完全求解的「玩具模型」但又蕴含着真实系统的关键物理特征。在无限宽度下网络的输出函数。关于参数 θ 的变化可以用一个时间无关的核函数来刻画而这个核函数在训练过程中保持不变 —— 这与量子系统中哈密顿量守恒有着异曲同工之妙。可处理的极限 —— 当网络变得「无限大」如果上一部分问的是「最简单的神经网络是什么」那么这部分问的就是「当网络的某个维度推向极端时会发生什么」。这正是物理学中热力学极限的思维模式通过研究粒子数趋于无穷的系统获得对有限系统的洞察。深度学习中已经发现了多个这样的「极限」宽网络极限Lazy vs. Rich Regime。 这是近年来最重要的理论发现之一。当网络宽度增加时训练动态会进入两种截然不同的状态惰性 regimeLazy Training网络参数几乎不离开初始化附近功能上等价于核方法。此时网络的表现像一个「懒惰的学生」—— 它不愿意真正改变自己只是用初始状态的微小扰动来拟合数据。丰富 regimeFeature Learning网络的特征表示在训练过程中发生实质性变化真正学会了有用的内部表征。这两种 regime 之间的转变取决于宽度、深度、学习率和批量大小之间的微妙平衡。这一工作严格刻画了这个相变边界而论文指出这一发现的意义远超技术细节 —— 它揭示了神经网络训练中存在真正的「相变」现象就像水在 0°C 结冰一样神经网络的行为在某些临界点会发生质的改变。其他重要极限还包括深度极限当层数趋于无穷时某些架构表现出连续动力学的特征批量极限大批量训练与小批量训练之间存在系统性差异学习率极限极小学习率对应梯度流极大学习率则触发全新的动力学这些极限研究的共同价值在于它们将离散的、有限的经验观察转化为连续的、可分析的数学对象。经验定律 —— 深度学习版的「开普勒定律」这部分是实证发现 —— 就像开普勒从第谷的观测数据中提炼出行星运动三定律一样深度学习研究者也从海量实验中总结出了若干跨越架构和数据集的普适规律。神经缩放律Neural Scaling Laws是其中最著名的一个。模型的测试损失随计算量、参数量或数据量的增加呈现幂律衰减其中 α 是依赖于任务和架构的幂律指数。这个规律的惊人之处在于它的普适性无论你用的是 Transformer 还是 ResNet无论任务是语言建模还是图像分类幂律关系都成立只是指数不同。另一个重要的经验规律是稳定性边缘Edge of Stability, EoS。当使用较大学习率训练时梯度的最大特征值即 Hessian 矩阵的最大特征值会自动稳定在 2/η 附近 η 为学习率。这种现象被称为「稳定性边缘」它暗示了深度学习优化过程中存在某种自组织临界性Self-Organized Criticality—— 这与沙堆坍塌、地震发生等自然界中的临界现象共享相同的数学结构。论文将其类比为光学中的斯涅尔定律Snells Law斯涅尔描述了光在不同介质界面上的折射行为但没有解释其底层原因那需要麦克斯韦方程组EoS 描述了训练过程中梯度稳定在临界值的现象但其深层机制仍有待「学习力学」的完整框架来揭示。超参数理论 —— 深度学习版的「量纲分析」任何一个调过模型的人都知道痛苦学习率设太大爆炸太小不收敛batch size 和学习率必须配合调整不同层的权重衰减该不该一样这些超参数的选择长期以来依赖经验和网格搜索缺乏系统性的指导原则。μPMaximal Update Parameterization的出现改变了这一切。 μP 框架提供了一种优雅的解决方案通过对参数初始化和更新规则进行特定的缩放变换使得超参数可以在不同规模的模型之间零样本迁移。也就是说你在一个小模型上调好的学习率可以直接用到同架构的大模型上而无需重新调整。μP 本质上是深度学习中的「量纲分析」Dimensional Analysis。在物理学中量纲分析允许我们在不完全知道具体方程的情况下仅通过检查物理量的量纲一致性就能得出重要结论。μP 做的事情类似它不需要知道损失景观的具体形状只需要保证不同规模下优化的「量纲」一致就能实现超参数的可迁移性。论文还提到了两个相关的重要概念中心流Central Flow。 这是一种新的参数化方案旨在让优化轨迹在参数空间中保持良好的几何性质避免因尺度不一致导致的优化困难。超参数解耦与消除Decoupling and Elimination of Hyperparameters。 更激进的想法是能否从根本上减少自由超参数的数量如果能证明某些超参数在理论上是不必要的或者说可以被其他参数吸收那么调参这件事本身就会大幅简化。普适行为 —— 不同的网络学到惊人的相似不同架构的神经网络在不同的数据集上训练之后学到的内部表征竟然高度相似。 这个现象被称为表征收敛Representation Convergence或通用表征假设Universal Representation Hypothesis。具体来说如果你训练两个完全不同的网络 —— 一个是 ResNet一个是 Vision Transformer—— 在 ImageNet 上训练到收敛然后比较它们中间层的激活模式你会发现它们的表征结构出奇地一致。更神奇的是这种一致性甚至跨模态存在视觉网络和语言网络在某些抽象层面上展现出相似的表征组织方式。论文将这一现象类比为物理学中的临界普适性Critical Universality。在统计力学中完全不同的物理系统如铁磁体和液体 - 气体相变在接近临界点时会表现出相同的行为 —— 它们的临界指数只依赖于空间的维数和序参量的对称性而与微观细节无关。这被称为「普适性类」Universality Class。如果深度学习也存在类似的普适性那就意味着不管你用什么架构、什么初始化、什么优化器只要满足某些基本条件网络就会收敛到同一类「吸引子」表征上。 这不仅能解释为什么不同模型的表现趋于一致也为理解智能的本质提供了新的视角 —— 也许智能本身就对应着某个高维空间中的「普适性吸引子」。十个未解之谜论文的最后部分坦诚地列出了十个尚未解决的关键问题。这些问题既是挑战也是路线图 —— 任何一个的突破都可能推动「学习力学」从愿景变为现实。1. 非线性动力学的解析理论。目前大部分可解结果局限于线性网络或无限宽极限。真实的有限宽度非线性网络的训练动力学仍然是黑洞。2. 缩放律的起源与断裂点。幂律关系为什么成立它在什么条件下会失效最近的一些工作暗示缩放律可能在极高规模下出现相变。3. 惰性与丰富 Regime 的完整相图。 我们知道两种 regime 都存在但它们之间的过渡区域是什么样子的是否存在第三种 regime4. 超参数的「标准模型」。能否建立一个统一的框架将 μP、中心流等各种参数化方案纳入其中并给出完整的超参数选择指南5. 表征收敛的数学证明。普适行为目前主要是实证观察。能否从优化动力学的角度严格证明表征必然收敛6. 泛化误差的理论上界。为什么过参数化的网络参数远多于样本数不会严重过拟合这个问题困扰了统计学习理论二十年。7. 架构设计的理论指导。能否从第一性原理出发推导出最优的网络架构而不是靠试错8. 语言与推理的涌现机制。In-context learning、思维链推理等能力是在什么条件下涌现的能否预测和控制这种涌现9. 物理对称性与神经网络归纳偏置的联系。物理世界具有平移不变性、旋转对称性、尺度不变性等 —— 神经网络是否天然编码了这些对称性还是说这些对称性是从数据中学到的10. 「学习力学」的形式化公理体系。最终我们需要一套类似牛顿三定律或量子力学公理的严谨数学框架而不仅仅是类比和启发式论证。在过去关于深度学习理论的问题通常是怎么让模型更高效。「学习力学」提出的则是另一种层次的问题「支配神经网络学习过程的底层规律是什么」科学史上这样的时刻并不多见。牛顿在苹果树下思考引力的时候开普勒的行星数据已经在书架上等了他半个世纪。达尔文在贝格尔号上收集标本的时候孟德尔的豌豆实验已经在修道院的花园里默默进行了八年。而今天在 AI 领域每天涌出的无数的进展背后在每一个深夜还在跑实验的 GPU 集群里在每一次模型进化的欢呼中 ——「学习力学」所需的全部碎片可能已经散落在那里了。需要的只是有人把它们捡起来拼在一起。阅读最新前沿科技趋势报告请访问21世纪关键技术研究院的“未来知识库”未来知识库是“21世纪关键技术研究院”建立的在线知识库平台收藏的资料范围包括人工智能、脑科学、互联网、超级智能数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。截止到2月28日 ”未来知识库”精选的百部前沿科技趋势报告加入未来知识库全部资料免费阅读和下载牛津未来研究院 《将人工智能安全视为全球公共产品的影响、挑战与研究重点》麦肯锡超级智能机构赋能人们释放人工智能的全部潜力AAAI 2025 关于人工智能研究未来研究报告斯坦福2025 斯坦福新兴技术评论十项关键技术及其政策影响分析报告191 页壳牌2025 能源安全远景报告能源与人工智能57 页盖洛普 牛津幸福研究中心2025 年世界幸福报告260 页Schwab 2025 未来共生以集体社会创新破解重大社会挑战研究报告36 页IMD2024 年全球数字竞争力排名报告跨越数字鸿沟人才培养与数字法治是关键214 页DS 系列专题DeepSeek 技术溯源及前沿探索50 页 ppt联合国人居署2024 全球城市负责任人工智能评估报告利用 AI 构建以人为本的智慧城市86 页TechUK2025 全球复杂多变背景下的英国科技产业战略韧性与增长路径研究报告52 页NAVEX Global2024 年十大风险与合规趋势报告42 页《具身物理交互在机器人 - 机器人及机器人 - 人协作中的应用》122 页2025 - 2035 年人形机器人发展趋势报告 53 页Evaluate Pharma2024 年全球生物制药行业展望报告增长驱动力分析29 页【AAAI2025 教程】基础模型与具身智能体的交汇350 页 pptTracxn2025 全球飞行汽车行业市场研究报告45 页谷歌2024 人工智能短跑选手AI Sprinters捕捉新兴市场 AI 经济机遇报告39 页【斯坦福博士论文】构建类人化具身智能体从人类行为中学习《基于传感器的机器学习车辆分类》最新 170 页美国安全与新兴技术中心2025 CSET 对美国人工智能行动计划的建议18 页罗兰贝格2024 人形机器人的崛起从科幻到现实如何参与潜在变革研究报告11 页兰德公司2025 从研究到现实NHS 的研究和创新是实现十年计划的关键报告209 页康桥汇世Cambridge Associates2025 年全球经济展望报告44 页国际能源署2025 迈向核能新时代麦肯锡人工智能现状组织如何重塑自身以获取价值威立Wiley2025 全球科研人员人工智能研究报告38 页牛津经济研究院2025 TikTok 对美国就业的量化影响研究报告470 万岗位14 页国际能源署IEA能效 2024 研究报告127 页Workday 2025 发挥人类潜能人工智能AI技能革命研究报告20 页CertiKHack3D2024 年 Web3.0 安全报告28 页世界经济论坛工业制造中的前沿技术人工智能代理的崛起》报告迈向推理时代大型语言模型的长链推理研究综述波士顿咨询2025 亚太地区生成式 AI 的崛起研究报告从技术追赶者到全球领导者的跨越15 页安联Allianz2025 新势力崛起全球芯片战争与半导体产业格局重构研究报告33 页IMT2025 具身智能Embodied AI概念、核心要素及未来进展趋势与挑战研究报告25 页IEEE2025 具身智能Embodied AI综述从模拟器到研究任务的调查分析报告15 页CCAV2025 当 AI 接管方向盘自动驾驶场景下的人机交互认知重构、变革及对策研究报告124 页《强化学习自我博弈方法在兵棋推演分析与开发中的应用》最新 132 页《面向科学发现的智能体人工智能进展、挑战与未来方向综述》全国机器人标准化技术委员会人形机器人标准化白皮书2024 版96 页美国国家科学委员会NSB2024 年研究与发展 - 美国趋势及国际比较51 页艾昆纬IQVIA2025 骨科手术机器人技术的崛起白皮书创新及未来方向17 页NPLBeauhurst2025 英国量子产业洞察报告私人和公共投资的作用25 页IEA PVPS2024 光伏系统经济与技术关键绩效指标KPI使用最佳实践指南65 页AGI 智能时代2025 让 DeepSeek 更有趣更有深度的思考研究分析报告24 页2025 军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告37 页华为2025 鸿蒙生态应用开发白皮书133 页《超级智能战略研究报告》中美技术差距分析报告 2025欧洲量子产业联盟QuIC2024 年全球量子技术专利态势分析白皮书34 页美国能源部2021 超级高铁技术Hyperloop对电网和交通能源的影响研究报告60 页罗马大学2025 超级高铁Hyperloop第五种新型交通方式 - 技术研发进展、优势及局限性研究报告72 页兰德公司2025 灾难性网络风险保险研究报告市场趋势与政策选择93 页GTI2024 先进感知技术白皮书36 页AAAI2025 人工智能研究的未来报告17 大关键议题88 页安联 Allianz2025 新势力崛起全球芯片战争与半导体产业格局重构研究报告威达信2025 全球洪水风险研究报告现状、趋势及应对措施22 页兰德公司迈向人工智能治理研究报告2024EqualAI 峰会洞察及建议19 页哈佛商业评论2025 人工智能时代下的现代软件开发实践报告12 页德安华全球航空航天、国防及政府服务研究报告2024 年回顾及 2025 年展望27 页奥雅纳2024 塑造超级高铁Hyperloop的未来监管如何推动发展与创新研究报告28 页HSOAC2025 美国新兴技术与风险评估报告太空领域和关键基础设施24 页Dealroom2025 欧洲经济与科技创新发展态势、挑战及策略研究报告76 页《无人机辅助的天空地一体化网络学习算法技术综述》谷歌云Google Cloud2025 年 AI 商业趋势白皮书49 页《新兴技术与风险分析太空领域与关键基础设施》最新报告150 页《DeepSeek 大模型生态报告》军事人工智能行业研究报告技术奇点驱动应用加速智能化重塑现代战争形态 - 25030940 页真格基金2024 美国独角兽观察报告56 页璞跃Plug and Play2025 未来商业研究报告六大趋势分析67 页国际电工委员会IEC2025 智能水电技术与市场展望报告90 页RWS2025 智驭 AI 冲击波人机协作的未来研究报告39 页国际电工委员会IEC2025 智能水电技术与市场展望报告90 页RWS2025 智驭 AI 冲击波人机协作的未来研究报告39 页未来今日研究所 2025 年科技趋势报告第 18 版 1000 页模拟真实世界多模态生成模型的统一综述中国信息协会低空经济分会低空经济发展报告2024 - 2025117 页浙江大学2025 语言解码双生花人类经验与 AI 算法的镜像之旅42 页人形机器人行业由 “外” 到 “内” 智能革命 - 25030651 页大成2025 年全球人工智能趋势报告关键法律问题28 页北京大学2025 年 DeepSeek 原理和落地应用报告57 页欧盟委员会 人工智能与未来工作研究报告加州大学伯克利分校面向科学发现的多模态基础模型在化学、材料和生物学中的应用电子行业从柔性传感到人形机器人触觉革命 - 25022635 页RT 轨道交通2024 年中国城市轨道交通市场数据报告188 页FastMoss2024 年度 TikTok 生态发展白皮书122 页Check Point2025 年网络安全报告 - 主要威胁、新兴趋势和 CISO 建议57 页【AAAI2025 教程】评估大型语言模型挑战与方法199 页 ppt《21 世纪美国的主导地位核聚变》最新报告沃尔特基金会Volta Foundation2024 年全球电池行业年度报告518 页斯坦福2025 斯坦福新兴技术评论十项关键技术及其政策影响分析报告191 页国际科学理事会2025 为人工智能做好国家研究生态系统的准备 - 2025 年战略与进展报告英文版118 页光子盒2025 全球量子计算产业发展展望报告184 页奥纬论坛2025 塑造未来的城市研究报告全球 1500 个城市的商业吸引力指数排名124 页Future Matters2024 新兴技术与经济韧性日本未来发展路径前瞻报告17 页《人类与人工智能协作的科学与艺术》284 页博士论文《论多智能体决策的复杂性从博弈学习到部分监控》115 页《2025 年技术展望》56 页 slides大语言模型在多智能体自动驾驶系统中的应用近期进展综述【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用皮尤研究中心2024 美国民众对气候变化及应对政策的态度调研报告气候政策对美国经济影响的多元观点审视28 页空间计算行业深度发展趋势、关键技术、行业应用及相关公司深度梳理 - 25022433 页Gartner2025 网络安全中的 AI明确战略方向研究报告16 页北京大学2025 年 DeepSeek 系列报告 - 提示词工程和落地场景86 页北京大学2025 年 DeepSeek 系列报告 - DeepSeek 与 AIGC 应用99 页CIC 工信安全2024 全球人工智能立法的主要模式、各国实践及发展趋势研究报告42 页中科闻歌2025 年人工智能技术发展与应用探索报告61 页AGI 智能时代2025 年 Grok - 3 大模型技术突破与未来展望报告28 页上下滑动查看更多

更多文章