由Patrick Moorhead,首席执行官兼首席分析师,Moor Insights & Strategy

在主题演讲之前我写了手册。看看它是如何展开的。

上周,我发布了我的GTC 2026预览,提出了一个具体的论点:NVIDIA必须证明它能够将训练GPU、预填充加速器、Groq解码处理器和独立CPU统一在一个软件层之下。我阐述了我预期黄仁勋会宣布的内容,存在的风险,以及我建议公司采取的行动。然后我飞往圣荷西,在SAP中心观看了主题演讲。

自2011年以来,我参加了每一届GTC。这是我见过的最具架构完整性的主题演讲。七款全新芯片投入生产。五个机架规模的系统。一个统一的软件堆栈,涵盖训练、推理、代理编排和存储。一个比我预期的更广泛的物理AI生态系统。还有一个名为Olaf的迪士尼机器人,在NVIDIA的Isaac仿真环境中完全训练出来,走上了舞台。黄仁勋在开场时庆祝了CUDA的20周年,并在闭幕时宣布,“每个SaaS公司都会成为GaaS公司,”即代理即服务公司。在此期间,他阐述了代币工厂的经济学方式,应该能引起每位基础设施CEO的关注。

简短版本:NVIDIA 实现了异构平台的理论。Groq LPU 的集成完全如我所预测。Vera CPU 从默默无闻跃升至舞台中央。软件壁垒更高了。令我惊讶的是速度与规模:到 2027 年,需求管线达到 1 万亿美元,LPX 机架将在 2026 年下半年出货,三星已经在生产 Groq LP30 芯片,Satya Nadella 确认 Vera Rubin 已经在 Microsoft Azure 上运行。尚未完全解决的问题:企业简化以及我在 2027 年指出的能源限制。

七颗芯片,五个机架,一个 AI 工厂:Vera Rubin 平台

黄仁勋在 3 月 16 日发布了 NVIDIA Vera Rubin 平台:七款全新芯片,全部量产,以五套机架规模系统出货。组件包括 Rubin GPU、Vera CPU、NVLink 6 交换机、ConnectX-9 超级网卡、BlueField-4 DPU、Spectrum-6 以太网交换机,以及新集成的 Groq 3 LPU。机架包括:用于 GPU 计算的 Vera Rubin NVL72,用于智能编排的 Vera CPU,用于超低延迟解码的 Groq 3 LPX,用于上下文存储的 BlueField-4 STX,以及用于以太网骨干网络的 Spectrum-6 SPX。

正如我的同事 Matt Kimball 在他的 CES 2026 研究报告中写的,NVIDIA 将 Vera Rubin 定位为一个新平台,而不是新一代芯片。GTC 2026 验证了这一定位。NVL72 集成了 72 块 Rubin GPU 和 36 块 Vera CPU,通过 NVLink 6 互联。NVIDIA 宣称每瓦推理吞吐量提高 10 倍,每个 token 的成本仅为 Blackwell 的十分之一,并表示 NVL72 可以用上一代四分之一的 GPU 数量处理大型混合专家模型。如果这些效率主张在生产规模上成立,它们将改变整个 AI 工厂的经济模式。

在舞台上,Jensen 展示了硬件:100% 液冷、无电缆的计算托盘,将安装时间从两天缩短至两小时,以及第六代 NVLink 交换系统。他还确认 Satya Nadella 已经报告 Vera Rubin 在微软 Azure 上运行,并且 NVIDIA 的供应链现在可以每周生产“成千上万”台这些机架,“每月可能生产数千兆瓦的 AI 工厂。”正如 Anshel Sag 在 2025 年 GTC 上写的,基础版 Rubin 计划于 2026 年初发布,配备 HBM4 内存。NVIDIA 实现了这一里程碑。但真正的故事并不是 GPU 本身,而是它背后的架构。没有其他半导体公司同时交付这么多专门设计、共同设计的组件。也就是说,交付组件和证明它们在超大规模下能够协同工作是两回事。

从 5000 亿美元到 1 万亿美元:需求管道在 12 个月内翻倍

Jensen 在舞台上讲述的需求故事令人震惊。在去年的 GTC 上,他看到了 5000 亿美元的高信心水平的 Blackwell 和 Rubin 需求,预计到 2026 年。今天,他站在同一个舞台上,说他现在预见到“至少 1 万亿美元”的需求,持续到 2027 年。他还补充道:“我确信计算需求将远远高于这个数字。”

外部数据也支持这一点。微软、Alphabet、亚马逊和 Meta 预计今年将在 AI 投资上花费超过 6500 亿美元,几乎是 2023 年水平的三倍。正如我在 2 月份对 Yahoo Finance 所说,AI 基础设施基本上已经售罄,直到 2027 年底。NVIDIA 公布了 68.1 亿美元的第四季度收入,超出预期超过 80 亿美元,其中数据中心收入为 62.3 亿美元。Vera Rubin 的效率提升正好在客户需要从每瓦特和每美元的基础设施开销中提取更多智能的关键时刻到来。

Groq 集成:我的预测应验了,而 Jensen 展示了其经济学逻辑

在我 GTC 会前的分析中,我做出了一个具体的架构预测:Groq 在短期内更可能采用的集成路径是解耦配置,即 LPU 机架与 GPU 机架并排部署,通过 NVLink 互连,并由 NVIDIA 的软件层进行管理。这正是 NVIDIA 所宣布的方案。

但 Jensen 的讲解比新闻稿更进一步,他展示了“token 工厂”的经济模型。他构建了一个二维框架:纵轴是吞吐量(每瓦 token 数),横轴是 token 速度(延迟/智能水平),并划分了从免费到每百万 token 150 美元的超高端层级。仅 Vera Rubin 就将整个性能前沿整体上移,使数据中心每吉瓦的收入生成能力相较 Blackwell 提升 5 倍。问题在于:NVLink 72 在大约每秒 400 个 token 之后就开始力不从心,其带宽不足以支撑超高端层级。这正是 Groq 发挥作用的地方。

Groq 3 LPX 机架集成了 256 个 LPU 处理器,配备 128GB 片上 SRAM,并具备 640TB/s 的扩展带宽。GPU 负责 attention 计算;LPU 则在每一层对每个输出 token 的解码操作进行加速,并通过定制的 Spectrum-X 互连与 Vera Rubin 相连。Jensen 对部署比例给出了明确说明:“我会将 Groq 部署在大约 25% 的数据中心,其余部分则全部采用 100% 的 Vera Rubin。”NVIDIA 宣称,两者结合后,每兆瓦的推理吞吐量可提升 35 倍。他还感谢三星制造 LP30 芯片,并确认该产品将于 2026 年下半年出货。

Jensen 还解释了为什么 Groq 对他有吸引力:它是一种确定性数据流处理器,采用静态编译、由编译器调度,并配备了大规模片上 SRAM,专为单一工作负载——推理——而设计。这种单一工作负载的聚焦限制了 Groq 独立发展的空间,但与 Vera Rubin 和 Dynamo 搭配后,NVIDIA 能够同时获得两种架构的优势。我一直坚持异构架构的观点。AI 流水线正在分裂为三种不同的工作负载,而 NVIDIA 必须填补这些空白。现在它做到了。如果执行到位,这将成为市场上最强的总体拥有成本(TCO)叙事。

Vera CPU:Jensen 称其为一个数十亿美元级别的业务

在 GTC 之前的文章中,我把 CPU 的复兴称为“一个被低估的重要趋势”。Jensen 则彻底打消了这种说法。他在台上表示:“我们从未想过会单独销售 CPU。但现在我们正在大量单独销售 CPU。这毫无疑问已经会成为一个数十亿美元规模的业务。”

NVIDIA 将 Vera CPU 作为一个专用的机架级产品推出:配备 256 个液冷处理器、400TB 内存以及每秒 300TB 的内存带宽。该芯片采用 88 个 Arm Olympus 核心,每个核心的内存带宽是 x86 的 3 倍,能效提升一倍,单线程性能比当前的 x86 服务器 CPU 提高 1.5 倍。Jensen 用一个简单的逻辑说明其必要性:AI 智能体会调用工具、运行 SQL、编译代码,并在 CPU 上验证结果。如果 CPU 速度慢,GPU 就会闲置。他称 Vera 是“全球唯一使用 LPDDR5 的数据中心 CPU”,强调其极致的单线程性能和每瓦性能。

我在 GTC 之前就在 X 上发帖说,NVIDIA 正在执行旧的 Intel 服务器打法,但速度更快:先以 GPU 为核心,然后在技术栈上下扩展,直到掌握架构话语权。Vera CPU 机架就是这一战略的具体体现。正如 Matt Kimball 在其 CES 2026 分析中所说,CPU 在 AI 系统中并没有变得不重要;它们正在变得更加专用化。Alibaba、ByteDance、Meta 和 Oracle Cloud Infrastructure 正在合作推进部署,同时 Dell Technologies、HPE、Lenovo 和 Supermicro 参与制造。至于超大规模云厂商之外的企业是否会大规模采用 Vera,将取决于定价以及代理型工作负载成为标准的速度。

软件之墙持续升高:Dynamo、OpenShell,以及“每个 SaaS 都会变成 GaaS”

我曾预测 NemoClaw 会成为 GTC 上的软件头条。NVIDIA 的进展超出了我的预期。

Jensen 概述了推动我们走到今天的三个转折点:ChatGPT 开启了生成式时代,o1 开启了推理时代,而 Claude Code 开启了代理时代。他表示:“NVIDIA 有 100% 的员工在使用 Claude Code、Codex 和 Cursor 的组合。如今没有任何一位软件工程师是不借助一个或多个 AI 代理进行工作的。”这正是 NVIDIA 正在构建的软件技术栈背后的需求驱动力。

Dynamo 1.0 现已投入生产,作为 AI 工厂的开源推理操作系统,使 Blackwell 推理速度提升最多 7 倍,并已被 AWS、Azure、Google Cloud、Oracle Cloud 以及包括 PayPal、Pinterest 和字节跳动在内的企业客户采用。配备 OpenShell 的 Agent 工具包为自主代理提供企业级安全防护。NemoClaw 堆栈通过一条命令即可安装 Nemotron 模型和 OpenShell。Jensen 将 OpenClaw 与 Windows 和 Mac 相比,称其为“个人 AI 的操作系统”,并宣称它“与 HTML 同样重要,与 Linux 同样重要”。Adobe、Atlassian、SAP、Salesforce、ServiceNow、CrowdStrike 和 Siemens 正在采用它。

Nemotron 联盟汇聚了 Cursor、LangChain、Mistral AI、Perplexity 等公司,共同在 NVIDIA DGX Cloud 上构建开放前沿模型。NVIDIA 还在 Nemotron 3 上扩展了其开放模型系列,用于智能代理 AI,包括 Isaac GR00T N1.7、Cosmos 3 和 Alpamayo 1.5。Jensen 的挑战性表述是:“每家 SaaS 公司都将成为 GaaS 公司”:即代理即服务。我认为这一方向是正确的,尽管时间表会比 Jensen 所暗示的更长。企业 IT 堆栈不会在两年内重建。

我在 GTC 2024 上写道,NIM 对企业来说“比 Blackwell 更重要”,称其为终极的拥抱并扩展策略。Jensen 用 CUDA 飞轮强化了这一点:20 年,数亿安装的 GPU,以及六年前出货的 Ampere GPU,由于 CUDA 兼容硬件的使用寿命极长,云端定价反而上升。锁定效应已在架构中嵌入,对于任何竞争者来说,在两年内复制这一点是最困难的。

实体 AI 生态系统的广度超出了我的预期

在GTC之前的那篇文章中,我写道实体AI在“2026年不会带来有意义的收入,但这是为2028到2030年铺路。”我仍然坚持这个收入判断。我低估的是生态系统采用的速度。

ABB Robotics、FANUC、KUKA和YASKAWA都在采用NVIDIA Omniverse和Isaac仿真框架。NVIDIA表示,这四家公司合计的全球已安装工业机器人数量超过200万台。Figure、Agility和AGIBOT正在基于Isaac GR00T模型和Jetson Thor构建人形机器人。在自动驾驶方面,比亚迪、吉利、五十铃和日产正在为L4级车辆采用NVIDIA DRIVE Hyperion,Uber计划从2027年开始推出机器人出租车网络,并在2028年扩展到28个城市。在医疗领域,罗氏已部署超过3,500块Blackwell GPU用于药物发现。迪士尼还在舞台上展示了一台会行走的奥拉夫机器人,该机器人在Isaac仿真中训练,使用了与DeepMind联合开发的物理解算器。最后这个更像是表演,但其底层技术(NVIDIA Warp、Newton物理引擎、Cosmos世界模型)与驱动工业应用的是同一套技术栈。

自从公司在GTC 2020上展示宝马工厂应用以来,我一直在跟踪NVIDIA的机器人布局,并且我与一些正在基于NVIDIA“三计算机架构”构建完整开发栈的机器人公司CEO有过交流。在实体AI领域正在形成的生态锁定,类似于CUDA在数据中心所创造的局面。是否有人能够在这一规模上提供可信的替代方案,才是正确的问题。目前答案是否定的。但对于这些合作伙伴来说,实体AI收入仍处于商业化前阶段,从仿真到实际部署生产机器人之间的路径依然漫长。

NVIDIA未充分回应的问题:复杂性、能源与企业

我在 GTC 之前的分析中提到的三个风险,至今仍有部分尚未解决。

复杂性。五种机架类型、七款芯片以及多种互连方案,对于任何不是超大规模云厂商的企业来说都过于复杂。Jensen 提出的 MGX 模块化架构和“代币工厂”经济框架有所帮助,但企业 CIO 仍然需要一种无需依赖一整支 NVIDIA 工程师团队即可部署的参考架构。DGX Spark 和 DGX Station 搭配 NemoClaw 是一个开始,但“桌面级 AI”和“完整 AI 工厂”之间的差距依然很大。

能源。NVIDIA 发布了 DSX Max-Q 和 DSX Flex,用于动态电力调配和电网灵活性。这些是软件优化工具,而不是能源来源。正如我在主题演讲前所写,能源是 2028 年前景中最被低估的约束因素。我对 2026 年和 2027 年充满信心,但再往后一年,则需要行业尚未完全交付的解决方案。

Groq 集成的执行情况。Samsung 正在生产 LP30,NVIDIA 表示将在 2026 年下半年供货。这比我预期更为激进,这是积极信号。但每兆瓦吞吐量提升 35 倍的说法,以及“代币工厂”的收入预测,都需要在客户规模上经过第三方验证。如果这些数据成立,Groq 这笔交易将显得极具前瞻性;如果不成立,这将是一笔 200 亿美元的押注,其回报兑现时间将比市场当前定价所反映的更长。

我有一些问题

在GTC之前的那篇文章中,我提出了四点建议。简化异构计算的信息传达:部分解决,评分B+。Jensen 的“Token 工厂”框架有所帮助,但企业买家需要更简单的入门路径。推出风冷的企业级推理解决方案:在GTC上关于 Vera Rubin 的部分并未完全解决,评分未完成。展示具体的 Groq 集成时间表:已回应,预计 2026 年下半年可用,由 Samsung 负责制造,并给出了明确的 25/75 部署比例,评分 A-(等待验证)。主导共封装光学(CPO)的叙事:已回应,Spectrum-6 SPX 已投入生产,同时确认 Feynman 将扩大铜互连和 CPO 的规模,评分 B。

一个新的建议:让客户公开验证 Vera Rubin 在生产规模下的性能。Jensen 展示了 Satya 已确认在 Azure 上部署。接下来需要让 Anthropic、Meta 或 OpenAI 在下一次财报电话会议或 Computex 上登台,确认他们在自己的 token 工厂中看到的结果。NVIDIA 自己的基准测试只是起点,而不是终点。SemiAnalysis 的整体评测是很好的一步,现在需要在客户规模上展示。

GTC 2026 验证了平台论点。现在开始执行。

GTC 2026印证了我在主题演讲前写下的判断:NVIDIA如今已成为一家异构AI基础设施平台公司。Vera Rubin平台是迄今为止任何半导体公司发布过的架构最完整的AI基础设施方案。软件壁垒变得更高。物理AI生态系统比我预期的更广。而Jensen提到的到2027年达1万亿美元的需求管道,是两年前难以想象的数字。

正如我在GTC 2025中所写,那场大会展示了NVIDIA对自身愿景的信心。GTC 2026更进一步,证明了AI工厂是本十年最具决定性的基础设施类别。到2027年的短期需求在这一周期中处于最强水平。真正的考验将在能源约束、市场份额向70%压缩以及定制芯片逐渐成熟对经济性的压力下到来。正如我在2025年5月对Marketplace所说,AMD和Intel在原始训练性能上落后1到2年,而Google的TPU和Amazon的Trainium是现实存在的替代方案。定制芯片不会消失。但没有任何竞争对手能提供NVIDIA这样的广度:GPU、LPU、CPU、存储、网络,以及将它们整合在一起的软件栈。

我认为NVIDIA的地位是结构性的,而非周期性的。芯片可以被复制,但CUDA、NIMs、NeMo、Dynamo、OpenShell、Omniverse以及开发者生态系统无法在两年内复制。Jensen提醒我们,CUDA已经有20年历史,而Ampere GPU在云端定价中仍在升值。这正是押注所在。GTC 2026是迄今为止最有力的证据,证明这一押注是正确的。

来源

Patrick Moorhead,《NVIDIA GTC 2026:异构计算、Groq 与 AI 构建的下一阶段》,Moor Insights & Strategy(GTC 前分析)

Patrick Moorhead,《NVIDIA 的 AI 全息宇宙在 GTC 2025 扩展》,Moor Insights & Strategy,2025 年 5 月 6 日

Matt Kimball,《NVIDIA 在 CES 2026:Vera Rubin 与 AI 基础设施的变化》,Moor Insights & Strategy,2026 年 1 月 12 日

广播分析:Patrick Moorhead 谈 NVIDIA 财报,Yahoo Finance,2026 年 2 月 25 日

广播分析:Patrick Moorhead 讨论 NVIDIA 的竞争地位、市场动态,2025年5月28日

Patrick Moorhead,LinkedIn 上关于 NVIDIA NIM 在 GTC 2024 的帖子,2024年3月18日

NVIDIA Vera Rubin 平台新闻稿,2026年3月16日

NVIDIA Vera CPU 新闻稿,2026年3月16日

NVIDIA Dynamo 1.0 新闻稿,2026年3月16日

NVIDIA Agent Toolkit 新闻稿,2026年3月16日

NVIDIA Nemotron 联盟新闻稿,2026年3月16日

NVIDIA 开放模型新闻稿,2026年3月16日

英伟达机器人生态系统新闻稿,2026年3月16日

英伟达 DRIVE Hyperion L4 新闻稿,2026年3月16日

英伟达 Vera Rubin DSX 参考设计新闻稿,2026年3月16日

罗氏全球扩展英伟达 AI 工厂,英伟达博客,2026年3月16日

“随着AI投资飙升,大型科技公司预计将在2026年支出6500亿美元,”雅虎财经,2026年2月6日

英伟达GTC 2026主题演讲(黄仁勋),2026年3月16日(现场参加及演讲实录)