模型也是一种“CUDA”:英伟达为何要260亿美金砸向开源模型?

张开发
2026/5/7 8:57:19 15 分钟阅读

分享文章

模型也是一种“CUDA”:英伟达为何要260亿美金砸向开源模型?
作者高飞英伟达的GTC2026开幕前几天看到Wired 杂志报了一个猛料英伟达计划在未来五年投入260亿美元去开发开源模型。所以等GTC真开起来的时候我在现场就额外关注这方面的消息。开源模型也确实在本次大会上占了很大的篇幅。黄仁勋先是在主题演讲中用大量篇幅谈论这个话题有六个模型家族的最新进展有 Nemotron 联盟稍后我们会细讲的成立。之后他又在GTC期间主持了一场Open Model圆桌。开源模型显然已经成为英伟达最高优先级的战略方向之一。一家以芯片、加速计算闻名的公司为什么要在模型上投入如此大的力量NVIDIA AI 软件副总裁 Kari Briski右、至顶科技CEO高飞左在GTC 期间我把这个问题抛给英伟达 AI 软件副总裁 Kari Briski 她给了我一个类比作为回答“我们把模型当成一个库来对待。开发者以依赖它我们有清晰的路线图会持续迭代会持续支持它。”一个库。这个类比只有理解 CUDA 的人才能完全体会。CUDA对英伟达的重要性其实已经无需多言。它的全称是 Compute Unified Device Architecture统一计算设备架构2007 年发布最初的目的是让开发者用 C 语言直接编写 GPU 程序而不必懂图形渲染。在那之前GPU 只能跑游戏画面CUDA 出现后GPU 变成了一台通用并行计算机。此后近二十年英伟达围绕 CUDA 构建了一个庞大的生态系统。这个生态系统的核心就是 Briski 所说的“库”。通俗来说CUDA 的库就是英伟达替开发者写好的现成工具包开发者不需要从零开始调用 CUDA 中对应的库就能完成特定任务。最主流的 AI 框架底层都对 CUDA 做了深度优化。这意味着全球绝大多数 AI 模型的训练和推理实际上都在 CUDA 的轨道上运行。这些库的关键特征是英伟达承诺长期维护每一代新硬件发布时同步更新保证向后兼容。开发者可以放心地把整个技术栈建在上面。所以当 Briski 用“库”来类比开放模型时我们自然就很容易感受到开放模型在英伟达业务中的“权重”了。那么具体来说开放模型具体能在英伟达的体系里扮演什么角色起何种作用呢在后续的采访中Briski 从训练、生态、工具链和 agent 等维度展开了解释。极致协同设计训练模型的两重目的Briski 在采访中首先强调了一个词extreme co-design极致协同设计。这个表述最近也频繁出现在黄仁勋的公开演讲中。它描述的不是某一个产品而是一种设计哲学GPU、CPU、网络交换芯片、存储处理器等不同组件在设计阶段就深度耦合而非各做各的。芯片的架构设计会考虑模型训练的需求模型的训练方案也会专门利用芯片的新特性连接它们的软件栈则在两端之间做桥梁。英伟达认为这种方式是它区别于纯芯片公司或纯模型公司的根本所在。在这种哲学下英伟达亲自训练模型自然就有了两重目的。第一重面向外部训练出的模型本身成为生态系统的公共资源。“我们可以把模型开放出去让整个生态系统去使用、在上面微调、构建自己的业务”Briski 说。第二重面向内部训练过程本身是对整套基础设施的极限压力测试。“我们需要通过训练模型来把基础设施逼到极限”她说“不只是算力还包括存储和网络。”当数千块、数万块 GPU 协同训练一个模型时系统中任何一个环节的瓶颈都会暴露出来。她举了一个具体的技术细节来说明第二点NVFP4。这是英伟达随 Blackwell GPU 架构推出的一种 4 位浮点精度格式。通俗来说AI 模型训练中的每个数值通常需要 16 位FP16甚至 32 位FP32来存储精度越高结果越准确但计算量和内存占用也越大。英伟达的 NVFP4 把每个数值压缩到仅 4 位并通过一种“双层缩放”机制每 16 个数值共享一个高精度缩放因子来弥补精度损失。根据英伟达的技术文档NVFP4 相比 FP16 可以将模型内存占用缩减约 3.5 倍相比 FP8 缩减约 1.8 倍同时在关键语言建模任务上的精度损失控制在 1% 以内。Blackwell Ultra GPU 的 NVFP4 峰值算力达到 15 petaFLOPS是 FP8 的 3 倍。“任何人大概都能用 NVFP4 训练一个基础模型”Briski 说“但你能做到在如此低的精度下仍然达到业界最高的准确率吗如果不能没有人会用它。”这正是“极致协同设计”要解决的问题4 位精度能不能用不取决于格式本身的定义而取决于从芯片的张量核心Tensor Core到训练框架如 NeMo Megatron再到模型架构的整条链路是否全部做了针对性优化。所以训练一个开放模型对英伟达来说还起到了系统性能试金石的作用。六个模型家族和一个联盟如果说 CUDA已有的 400 多个库覆盖了计算层面的各种需求那英伟达现在正在用不同尺寸的模型覆盖不同层面的需求。GTC 2026 上英伟达讲了模型家族Nemotron 负责语言理解与推理是接近 ChatGPT 或 Claude 的通用模型Cosmos 是“世界基础模型”为机器人提供对物理世界的理解能力包括重力、阻力和空间感知Isaac GR00T 专为人形机器人设计让它们能够同时移动和操作物体Alpamayo 面向自动驾驶帮助车辆在复杂路况中进行推理和决策在GTC大会期间我也体验了Alpamayo的45分钟自动驾驶全程0接管乘坐体验很丝滑BioNeMo 用于生命科学支持蛋白质结构预测和药物发现Earth-2 则专注气候与天气模拟。六条线从数字世界延伸到物理世界覆盖了 AI 可能触达的几乎所有前沿领域。Briski 还提到了一个容易被忽视的细节这六个模型家族之间会共享数据。“比如 Cosmos 团队就在为 Nemotron 模型贡献视觉理解数据。我们内部合作非常紧密。”围绕这些模型英伟达确实构建了一种 CUDA 开发者非常熟悉的节奏清晰的路线图和可预期的迭代。Briski 提到英伟达在 2025 年 12 月就发布了 Nemotron 模型的路线图Nano、Super、Ultra 三个规格分别对应轻量级、中等规模和前沿级。目前Ultra 版本约5000 亿参数的基础训练已经完成进入后训练阶段。同时英伟达宣布成立 Nemotron CoalitionNemotron 联盟。这个联盟的成员包括法国的 Mistral AI欧洲最具影响力的模型公司之一、AI 搜索引擎 Perplexity、AI 代码编辑器 Cursor以及 agent 开发框架 LangChain、前OpenAI CTO Mira Murati创立的Thinking Machines Lab、Black Forest Labs、Reflection AI、Sarvam等。它们将使用英伟达的 DGX Cloud 算力资源分别参与下一代 Nemotron 4 的模型训练、数据贡献、评估框架和领域专长等工作。“路线图越清晰、承诺越明确大家就越会意识到这是一个可以长期依赖的库。”Briski 总结。比开放权重更开放把工具链也给你说到开放模型我们还有必要先厘清两个容易混淆的概念开放权重open weight和开源open source。Open-weight model开放权重模型只公开训练后的参数权重不公开训练代码、数据集和架构细节。Llama等都属于这类。Open-source AI model开源 AI 模型按照 OSI 2024 年的定义需要同时公开 data information、code、parameters 三者。OLMo、BLOOM 属于这类。行业里常把这两个词混着用但它们指向不同层次的“开放”。开放权重是指把模型训练完成后的参数即“权重”公开发布任何人可以下载、部署和微调。你拿到的是一道做好的菜可以加盐加醋调味但看不到完整的食谱。开源则更进一步除了模型权重还公开训练代码、数据集构成、架构细节甚至训练过程中的中间检查点。你拿到的是整套食谱包括原料清单、烹饪步骤和厨房设备说明。而英伟达的Nemotron的开源就非常彻底其开放了后训练方案recipes、强化学习的环境和验证器verifiers。根据英伟达公开的技术文档其开放的预训练数据集规模达到 10 万亿 token。这里需要解释一下“后训练”和“强化学习环境”。AI 模型的训练通常分为两个阶段预训练pre-training是让模型阅读海量文本学会语言的基本规律后训练post-training则是在预训练的基础上通过人类反馈或强化学习来调教模型的行为让它变得更有用、更安全。后训练阶段中“训练环境”是指模型练习解题的场景集合比如数学题库、代码测试用例“验证器”则是判断模型回答是否正确的评分系统。目前行业内大多数公司开放模型时只发布最终的权重而后训练阶段使用的训练环境和验证器通常不会公开。不过英伟达的做法不同。“我们正在和数据供应商合作共同构建新的环境和验证器并把它们开放出去让大家能够理解如何自己创建这些环境。”Briski 告诉我。Briski 认为开放这些资源的价值在于降低整个行业的重复劳动。“算力即智能。我们公开这些是因为我们意识到这可以为大家节省计算资源。”企业不用自己从零搭建训练环境可以直接在英伟达提供的工具链上开始工作把精力集中在自己最擅长的垂直领域。她举了两个企业强化学习的例子。SAP 是全球最大的企业软件公司之一其 ERP 系统中有至少 2000 个工具接口需要训练模型学会在复杂的企业环境中正确调用这些工具。另一个例子是 Edison ScientificBriski 提到他们用自定义模型训练了一套针对科学工具的 agent。据公开资料Edison Scientific 运营着一个叫 Kosmos 的 AI 科学家平台。这些企业不可能依赖通用模型的开放权重完成工作它们需要在自己的环境中做强化学习。模型的开放权重只是起点完整的训练工具链才是让企业持续受益、持续投入的基础。从 OpenClaw 到 NemoClaw当 Agent 成为模型的主要用户聊完模型的开放策略我在采访中向 Briski 提出了一个观察如今大量的模型调用已经不是来自人类对话而是来自 agent。Agent 对模型的消耗量甚至已经超过了人类用户这对模型的设计和训练意味着什么Briski 说趋势确实如此。现在AI 算力需求的演进可以概括为四个阶段预训练、后训练、推理时扩展test-time compute再加上 agent 之间的协作。前三种已经被行业广泛讨论第四种是新的。“想想去年人们还对‘一个推理模型生成 10000 个 token 才得出答案’感到惊讶。现在已经没人再质疑这个了。而 agent 之间的协作可能涉及数十万 token。”而说到 agent就不能不提 OpenClaw。就在这次采访的前一天黄仁勋在 GTC 2026 主题演讲中花了大量篇幅谈论这只“龙虾”。他把 OpenClaw 比作 Linux的产业影响称其为“个人 AI 的操作系统”并当场发布了英伟达为它打造的企业级方案 NemoClaw。在会场我恰好遇到了 OpenClaw 的创始人 Peter Steinberger。我也和Briski 特别聊到了安全相关话题。因为OpenClaw 的爆发增长让企业级安全需求提前浮出水面。显然一个能访问邮箱、日历、消息平台的自主 agent显然需要比传统软件更严格的权限管控和数据隔离。甚至对于个人消费者也如此。现在很多安装龙虾的人是没有技术背景的一旦操作不当很容易造成隐私泄漏等问题。Briski说英伟达的 NemoClaw 正是为此而来。NemoClaw 是英伟达版的OpenClaw包含两个核心组件OpenShell 是一个安全运行时负责沙箱隔离、策略设置、安全路由和权限管控它采用了一种“隐私路由器”机制在将数据发送到外部云端模型之前自动剥离个人身份信息内置的 Nemotron 模型则提供本地推理能力不需要联网也能运行。整个方案一条命令即可安装。Briski 又做了一个类比“就像我们对 TensorFlow、PyTorch、Kubernetes、OpenGL 所做的我们维护支持这些开源平台的完整性同时贡献力量确保它们在英伟达的硬件和软件库上运行得最好。”之前我看到OpenClaw创始人Peter也在X上说感谢英伟达带着安全专家为OpenClaw提供帮助。不过尽管有了这些保障措施。OpenClaw的企业级部署仍处于早期阶段。“企业需要自己定义策略然后回答三个问题它被允许做什么代表谁来做使用什么凭证”这三个问题简洁得像一道哲学题却是整个 agent 经济能否落地的关键。技术不是瓶颈信任才是。采访最后我问了一个跳出具体产品的问题。Briski 在企业IT这个领域很资深亲历了云计算、ERP 等多次技术浪潮。所以“相比那些周期生成式 AI 处在什么位置”她给了我一个非常简洁但确定的描述“它的增长曲线是竖直的。这是我们见过的增长速度最快的工作负载之一。”

更多文章