2026 年 3 月 24 日,ARM 在官方博客发布了 AGI CPU——公司成立 35 年以来首款自有品牌处理器。[1] 首批客户阵容堪称豪华:Meta、OpenAI、SAP、Cerebras、Cloudflare、F5、SK Telecom、Rebellions、Positron,预计 2026 年下半年开始出货。[2] 这颗 136 核、TSMC 3nm 制程的服务器芯片,瞄准的不是传统通用计算,而是正在爆发式增长的 AI Agent 编排与推理工作负载。
本报告从五个维度全面解读这一事件:技术规格(136 核架构的硬实力)、商业模式转型(从 IP 授权到产品公司的巨变)、竞争格局(对 Intel/AMD/NVIDIA/Ampere 的冲击)、"AGI CPU"命名策略(营销还是技术定位),以及对中国市场的影响。
事件:ARM 35 年来首次推出自有品牌芯片
从"幕后英雄"走向"台前巨头",半导体行业重要的商业模式转折
ARM 的故事始于 1990 年。35 年来,这家英国公司始终坚守一种独特的商业模式:只设计指令集架构和 CPU 核心 IP,从不自己制造或销售芯片。苹果、高通、三星、华为、联发科——全球超过 99% 的智能手机处理器都基于 ARM 架构,但没有一颗芯片上印着 ARM 的品牌。ARM 靠收取许可费(一次性授权费)和版税(每颗芯片抽成)构建了一个庞大的生态帝国。[3]
2026 年 3 月 24 日,这一切被打破了。ARM CEO Rene Haas 宣布推出 AGI CPU——公司历史上第一款完整的自有品牌处理器。[1] 这不是一次试水,而是一次经过深思熟虑的战略转型:
- ARM 设计,TSMC 代工ARM 负责完整的芯片设计(不仅仅是 CPU 核心,还包括 I/O、缓存层次结构、电源管理等),由台积电 3nm 工艺代工制造。这是 ARM 首次承担完整芯片的设计责任。[1]
- 面向 AI 数据中心,而非手机AGI CPU 明确定位 AI 数据中心场景——Agent 编排、推理服务、API 网关等。ARM 选择避开手机领域(那里遍布它的授权客户),转而进攻一个相对空白的新战场。[2]
- 2026 年下半年出货ARM 预计 H2 2026 开始向客户交付。考虑到 TSMC 3nm 产能紧张(苹果、NVIDIA 都在抢产能),这一时间表本身就意味着 ARM 已经提前锁定了产能。[5]
技术规格深度拆解
136 核 Neoverse V3、3nm 工艺、825GB/s 内存带宽——这是一颗什么级别的芯片
AGI CPU 基于 ARM 最新的 Neoverse V3 架构,这是 ARM 服务器 CPU 核心的第三代旗舰设计,相比前代 V2(用于 NVIDIA Grace 和 Microsoft Cobalt 100)在 IPC(每周期指令数)和 AI 推理性能上有显著提升。[1]
核心架构
| 规格项 | AGI CPU | 说明 |
|---|---|---|
| 核心数 | 136 核 | Neoverse V3 架构,不支持 SMT(每核单线程),靠核数碾压 |
| 主频 | 3.2 - 3.7 GHz | 基础频率 3.2GHz,Boost 频率 3.7GHz |
| 制程 | TSMC 3nm (N3E) | 与苹果 A17 Pro / M4 同代工艺 |
| TDP | 300W | 与 AMD EPYC Genoa 同等级功耗 |
| L2 缓存 | 每核 2MB | 总计 272MB L2 |
| 系统级缓存 (SLC) | 128MB | 共享系统级缓存,降低内存访问延迟 |
| 内存 | 12 通道 DDR5-8800 | 总带宽 825GB/s |
| PCIe | 96 条 PCIe 6.0 | 支持 CXL 3.0,GPU/加速器互联带宽极大 |
关键设计决策:不支持 SMT(同步多线程)。Intel Xeon 和 AMD EPYC 都支持每核 2 线程,136 核可以跑 272 线程。ARM 选择了不同的路线:每核只跑 1 线程,但每个核心的独立性能更高,缓存资源不被共享稀释。这种设计在 AI 推理场景下更有优势——推理任务通常是计算密集而非线程密集。[6]
部署配置
- 36kW 单机架功耗
- 60 个 AGI CPU(双路服务器 x 30 台)
- 8,160 核单机架总核心数
- 适合边缘数据中心和改造型机房
- 200kW 单机架功耗
- 336 个 AGI CPU
- 45,696 核单机架总核心数
- 面向大规模 AI 数据中心
液冷配置的密度惊人——单机架超过 4.5 万核。作为对比,一个传统的 Intel Xeon 风冷机架通常只有约 2,000 核。这种密度意味着 ARM 正在为"AI 工厂"级别的部署而设计。[6]
96 条 PCIe 6.0 通道意味着单颗 CPU 可以直连 6 块 NVIDIA B200 GPU(每块需要 16 条 PCIe 通道)。CXL 3.0 支持则允许内存池化——多颗 CPU 共享一个超大内存池,这对大型 AI Agent 系统的状态管理至关重要。[1]