AI芯片大分流:风险资本如何押注后英伟达时代

Hacker News April 2026
来源:Hacker NewsAI chips归档:April 2026
一场历史性的资本浪潮正在重塑人工智能的基石。风险投资者将数十亿美元投向新一代芯片初创企业,其目标不仅是复制英伟达的成功,更是要为AI计算构建一个根本性不同、高度专业化的未来。这场运动是对架构垄断的战略性反抗,也是对AI需求演变的直接回应。

自GPU因深度学习崛起以来,AI硬件领域正经历着最重大的结构性变革。多年来,英伟达的CUDA生态系统在AI训练领域建立了近乎垄断的地位,构筑了强大的软件护城河。然而,最近涌向替代性AI芯片公司的资本激增——过去24个月累计融资超过150亿美元——传递出一个深刻的市场信念:通用型AI计算的时代正在终结。

这股投资浪潮并非投机泡沫,而是对清晰的技术与经济裂痕的针对性回应。现代AI的运营需求已一分为二:前沿模型大规模、批处理式的训练依然关键,但爆炸性增长如今出现在推理环节——即模型运行以产生预测的过程。推理工作负载具有高度动态、延迟敏感且日益分散的特性,暴露了传统GPU架构在能效和成本上的局限性。

投资者正将资金注入那些针对特定AI范式(如Transformer推理、稀疏模型、边缘AI)从头设计硬件的公司。这标志着行业思维的根本转变:从追求通用计算能力,转向为特定任务优化整个计算栈。其驱动力不仅来自技术需求,也源于地缘政治和供应链风险,促使企业和政府寻求多元化的硬件基础。

因此,我们正见证一个由专业化主导的新AI硬件生态系统的诞生。这个生态系统不再由单一架构统治,而是由一系列针对不同计算阶段(训练与推理)、不同部署环境(云端与边缘)和不同模型特性(稠密与稀疏)优化的芯片构成。这150亿美元的赌注,押中的正是AI计算的未来是多元且碎片化的。

技术深度解析

本轮投资周期的核心叙事,正是对英伟达GPU架构的技术性背离。挑战者们并非在制造稍好一点的GPU;他们正在为特定的AI范式重新构想计算基底。

内存墙与专用数据流: 英伟达的GPU虽然极其强大,但其根本设计是针对训练中常见的密集、可预测的矩阵乘法(matmul)。而推理,特别是对于具有动态注意力模式和专家混合(MoE)路由的现代大语言模型(LLM),则呈现出“内存墙”问题。将模型参数从DRAM移动到计算单元所花费的时间和能量,常常远超实际计算时间。像 Groq 这样的初创公司通过确定性的单核 张量流处理器(TSP) 架构来攻克此难题。Groq芯片不使用复杂的缓存层次结构,而是通过软件编译器静态调度每一次内存移动和操作,从而保证可预测的超低延迟——这对实时应用至关重要。其开源编译器栈(可在 `groq/mlagility` 等代码库中查看)允许开发者针对这一独特架构分析和编译模型。

稀疏性与动态执行: 另一个前沿方向是挖掘训练模型中的固有稀疏性(许多权重接近零)以及智能体的动态执行路径。由Jim Keller领导的 Tenstorrent 架构,采用大规模并行、基于RISC-V的设计,并辅以细粒度电源门控,仅激活必要的计算单元,从而极大提升了稀疏工作负载的能效。类似地,Cerebras晶圆级引擎(WSE-3) 是一块尺寸等同于整片硅晶圆的单一芯片,内含90万个AI优化核心和44GB片上SRAM。这种紧邻计算单元的巨量内存,几乎消除了模型运行时所有的片外内存流量,使其特别适合训练超大模型并对其进行推理,而无需受制于典型的数据移动瓶颈。

新范式的基准测试: 原始的峰值万亿次浮点运算(TFLOPS)正日益成为一个糟糕的指标。新的基准是每瓦特每秒生成的token数(推理效率)、第99百分位延迟(p99)以及特定工作负载的总拥有成本。

| 芯片架构 | 核心创新 | 目标工作负载 | 延迟优势(对比A100) | 能效宣称(Tokens/Watt) |
|---|---|---|---|---|
| Groq LPU | 确定性张量流处理 | LLM推理,实时应用 | p99延迟降低10-50倍 | 提升2-4倍 |
| Cerebras WSE-3 | 晶圆级片上内存 | LLM训练 & 大批次推理 | 不适用(面向批处理) | 训练性能/瓦特提升约5倍 |
| Tenstorrent | RISC-V多核 + 稀疏计算 | 稀疏模型,边缘AI | 延迟降低2-5倍 | 稀疏工作负载提升3-7倍 |
| SambaNova SN40L | 可重构数据流单元(RDU) | 全栈训练/推理 | 在特定模型上具有竞争力 | 吞吐量/瓦特提升高达4倍 |

数据启示: 上表揭示了明确的专业化趋势。没有一种架构能在所有指标上占优。Groq在确定性延迟上表现出色,Cerebras擅长内存受限的训练,Tenstorrent则精于高效的稀疏计算。这种碎片化正是投资者所押注的——不同的AI任务需要根本不同的硬件基底。

关键参与者与案例研究

竞争格局中不再只是充满希望的陪跑者,而是资金雄厚、技术独特且已有实际部署的强劲竞争者。

Groq: 或许是最激进的背离者,Groq将其未来押注在 语言处理单元(LPU) 上。其在公开演示中以每秒超过300个token的速度运行Llama 70B,展示了其确定性架构的原始速度潜力。该公司的战略是占领“AI推理引擎”市场,将其系统出售给云服务提供商和需要为面向客户的AI智能体保证响应时间的企业。

Cerebras Systems: Cerebras采取了相反的极端规模路径。其WSE-3是有史以来最大的芯片,瞄准最苛刻的训练和推理任务。它已获得 TotalEnergies(用于科学计算)和 G42(用于构建主权AI集群)等知名客户。Cerebras的案例证明,在最高端市场,非GPU解决方案存在可行市场,其集成化的简洁性(用少数WSE系统替代整机架的GPU)降低了复杂性。

SambaNova Systems: 定位为全栈AI平台,SambaNova不仅销售芯片,还提供完整的集成系统(数据流即服务)。其 SN40L 芯片采用可重构数据流单元(RDU),可在同一硅片上针对不同模型类型(从CNN到Transformer)进行动态重构。这种灵活性,结合其优化的软件栈(SambaFlow),吸引了运行多样化AI工作负载的企业,它们希望避免为每种新模型架构进行昂贵的硬件重新配置。

Tenstorrent: 凭借传奇芯片架构师Jim Keller的领导,Tenstorrent采取了一种开放和模块化的策略。其基于RISC-V的设计不仅针对AI,还瞄准更广泛的加速计算市场。公司通过授权其IP和销售芯片来商业化,这种双重模式使其能够渗透到从边缘设备到数据中心的各个层面,特别是在对能效和成本敏感的稀疏模型推理领域。

其他重要参与者: 这个领域还包括像 Graphcore(专注于IPU和图形神经网络)、Mythic(专注于模拟计算和边缘AI)以及众多专注于光子计算、存内计算等后冯·诺依曼架构的初创公司。每家公司都代表着对AI计算挑战的不同哲学和技术解答。

市场影响与未来展望

这场资本驱动的多元化运动将产生深远影响:
1. 削弱软件护城河: 随着专用芯片的崛起,CUDA的垄断地位将面临挑战。新的编译器栈和软件层(如Groq的软件定义调度、SambaNova的SambaFlow)正在创建替代性的生态系统,降低开发者的迁移门槛。
2. 催生新的商业模式: 从芯片销售(Tenstorrent)到系统销售(Cerebras, Groq),再到“计算即服务”(SambaNova),多样化的商业模式正在涌现。这反映了客户对灵活性、易用性和总拥有成本的不同优先级。
3. 重塑供应链与地缘政治: 对非英伟达解决方案的需求,部分源于对供应链集中风险和地缘政治不确定性的担忧。各国政府推动“主权AI”的努力,将进一步推动对多元化、可替代硬件基础的需求。
4. 加速AI应用创新: 当底层硬件针对特定任务优化时,此前因成本或延迟问题而不切实际的新AI应用将成为可能。例如,实时、高并发的对话AI、设备端的复杂模型推理、以及科学模拟中的大规模AI驱动发现。

然而,挑战依然存在。软件生态的成熟度、与现有基础设施的集成、以及证明其在真实世界大规模部署中的稳定性和成本效益,将是这些挑战者能否成功的关键。

结论: 风险资本正在积极资助一个后英伟达时代的AI计算图景。这并非要推翻现任王者,而是要构建一个更加多元、高效和专门化的硬件生态系统,以支撑AI下一阶段的发展。从追求通用算力到拥抱专用计算,这一根本性转变正在开启AI硬件的新纪元。未来的赢家可能不是某个单一的“英伟达挑战者”,而是一系列在各自细分领域占据主导地位的专业化架构。这场伟大的AI芯片分流,最终将决定AI技术以多快的速度、多低的成本渗透到我们经济和社会的每一个角落。

更多来自 Hacker News

谷歌自研AI芯片撼动英伟达:推理计算王座遭遇正面挑战谷歌的AI战略正在经历一场深刻的、以硬件为中心的转型。公司正积极开发其下一代张量处理单元(TPU),并锐意聚焦于驱动搜索、Gemini和YouTube等实时服务的推理工作负载。这直接冲击了英伟达在AI加速硬件领域近乎垄断的地位,尤其是在延迟Runtime Guardrails Emerge as Essential Infrastructure for Taming AI Coding AssistantsThe landscape of AI-assisted programming is undergoing a fundamental transformation. The initial phase, characterized byGitHub Copilot条款变更:AI的数据饥渴与开发者主权之争浮出水面由GitHub与OpenAI合作开发的AI代码补全工具GitHub Copilot,近期更新了其服务条款。修订后的条款赋予了GitHub更广泛的权利,可以使用服务中的内容(包括代码片段、提示词和查询)来改进和训练其底层AI模型。尽管公司声称查看来源专题页Hacker News 已收录 2217 篇文章

相关专题

AI chips12 篇相关文章

时间归档

April 20261860 篇已发布文章

延伸阅读

超越英伟达:赢得下一代AI芯片竞赛所需的三大支柱AINews analysis reveals that surpassing NVIDIA in the AI compute race requires more than raw performance. The next leade谷歌自研AI芯片撼动英伟达:推理计算王座遭遇正面挑战谷歌正在人工智能领域进行一场根本性的战略转向,其目标已超越算法创新,直指行业的硬件根基。通过开发日益复杂、专为AI推理优化的定制芯片,这家科技巨头旨在打破对英伟达的依赖,并为其核心服务构筑性能护城河。英伟达的生存危机:AI淘金热如何撕裂其游戏根基英伟达在人工智能领域的空前成功,正引发一场意想不到的危机:曾助其建立帝国的游戏社群正被逐渐疏离。随着公司将数据中心营收与AI工作负载置于首位,其消费级显卡日益反映企业级优先事项,而非纯粹的游戏性能,导致品牌身份出现裂痕,竞争对手正伺机而动。AMD开源攻势:ROCm与社区代码如何撼动AI硬件霸权一场静默的革命正在重塑AI硬件格局,驱动力并非来自新的芯片突破,而是开源软件的成熟。AMD的GPU曾被视为深度学习领域的利基产品,如今却在大型语言模型推理性能上展现出竞争力,正挑战行业对封闭垂直集成平台的依赖。这一转变有望降低AI算力成本,

常见问题

这起“The Great AI Chip Diversification: How Venture Capital Is Funding the Post-NVIDIA Era”融资事件讲了什么?

The AI hardware landscape is undergoing its most significant structural transformation since the rise of the GPU for deep learning. For years, NVIDIA's CUDA ecosystem established a…

从“Groq LPU vs NVIDIA H200 inference latency benchmark”看,为什么这笔融资值得关注?

The technical divergence from NVIDIA's GPU architecture is the core narrative of this investment cycle. Challengers are not building slightly better GPUs; they are reimagining the compute substrate for specific AI paradi…

这起融资事件在“Cerebras WSE-3 customers list and use cases”上释放了什么行业信号?

它通常意味着该赛道正在进入资源加速集聚期,后续值得继续关注团队扩张、产品落地、商业化验证和同类公司跟进。