Groq战略转身:从芯片制造商到AI推理云,重塑计算格局

TechCrunch AI June 2026
来源:TechCrunch AIAI inference归档:June 2026
Groq完成6.5亿美元融资并重组高管团队,从纯芯片制造商转型为AI推理云服务提供商。此举紧随英伟达一笔价值200亿美元的“非收购式挖角”交易,标志着Groq押注实时、低延迟AI工作负载的战略决心。

Groq,这家曾被视为英伟达在AI芯片领域挑战者的公司,近日宣布完成6.5亿美元融资,并彻底转型其商业模式。公司现以“NeoCloud”品牌定位为AI推理即服务平台,从销售硬件转向提供基于云的自研语言处理单元(LPU)访问。这一战略转变发生在英伟达通过一笔价值200亿美元的“非收购式挖角”交易,实际上吸纳了Groq大量人才和技术之后。Groq并未选择在通用GPU市场与英伟达正面竞争,而是聚焦于超低延迟推理,服务于自主智能体、实时视频生成和交互式世界模型等应用。这笔6.5亿美元资金将用于扩展其云基础设施,以支持这一全新定位。

技术深度解析

Groq向推理云服务的转型,根植于其语言处理单元(LPU)独特的架构优势。与依赖SIMT(单指令多线程)架构、针对训练中并行矩阵运算优化的英伟达GPU不同,LPU是一种确定性、张量流式处理器,专为顺序、低延迟执行而设计。LPU的关键创新在于摒弃了传统的缓存层次结构和乱序执行逻辑。取而代之的是,它采用软件定义的静态调度方法:编译器预先将整个神经网络图映射到芯片的计算资源上。这意味着,对于给定的模型,LPU确切知道每个操作发生在哪个时钟周期,从而消除了困扰通用处理器的缓存未命中与分支预测错误的不确定性。

这种确定性执行对于实时推理至关重要。在GPU上,由于内存争用和调度开销,处理单个token的时间可能波动数十毫秒。而在LPU上,token生成延迟几乎恒定,对于Llama 3 70B等模型,通常在10-15毫秒范围内。这使得LPU成为响应时间一致性比峰值吞吐量更重要的应用的理想选择。

然而,这种架构也伴随着权衡。LPU并非通用计算引擎。它无法高效运行训练所需的反向传播算法,也无法处理现代数据中心中的多样化工作负载(如数据处理、Web服务)。它是一种专门的推理加速器。编译器才是秘密武器——Groq的软件栈(部分已在GitHub上以`groq`组织名义开源)包含一个基于MLIR的自定义编译器,可将PyTorch和ONNX模型映射到LPU的指令集。仓库`groq/groqflow`(超过2000颗星)提供了模型量化和部署工具,但核心编译器仍为专有。

基准对比:LPU vs. GPU推理

| 模型 | 硬件 | 延迟(首token) | 吞吐量(token/秒) | 每百万token成本(美元) |
|---|---|---|---|---|
| Llama 3 70B | Groq LPU(单芯片) | 12 ms | 85 | $0.35 |
| Llama 3 70B | NVIDIA H100(8卡) | 35 ms | 120 | $0.80 |
| Llama 3 70B | NVIDIA A100(8卡) | 55 ms | 60 | $0.50 |
| Mistral 7B | Groq LPU(单芯片) | 4 ms | 480 | $0.08 |
| Mistral 7B | NVIDIA H100(单卡) | 15 ms | 200 | $0.15 |

数据要点: 对于大模型,LPU的首token延迟比H100集群低3倍,但吞吐量更低。这证实了Groq的定位:优先考虑响应速度而非原始token生成速度的应用。成本优势也很明显,尤其是对于较小模型,这使得Groq成为高容量、延迟敏感推理场景中一个极具吸引力的选择。

关键玩家与案例研究

Groq的新战略直接瞄准了实时AI应用的新兴市场。该领域的关键玩家包括:

- Anthropic:其Claude模型越来越多地用于智能体工作流(如编程助手、客服机器人),在这些场景中,延迟直接影响用户体验。Anthropic已公开表示,推理延迟是规模化部署智能体的主要瓶颈。Groq的低延迟LPU可能成为Anthropic API的首选推理后端,尤其是针对“Claude Instant”层级。
- RunwayML:作为生成式视频领域的领导者,Runway的Gen-3 Alpha模型需要近乎实时的反馈以支持交互式编辑。Groq的确定性延迟比基于GPU的推理更适合此场景,后者可能产生不可预测的帧时间。
- Hugging Face:该平台的Inference Endpoints服务允许开发者在各种硬件上部署模型。Groq可与Hugging Face合作,提供“超低延迟”层级,直接与目前使用NVIDIA GPU的Replicate和Fireworks AI竞争。
- Waymo / Cruise:自动驾驶需要低于100毫秒的推理延迟用于感知和规划。虽然Groq的LPU并非为边缘端设计(功耗高,非车规级),但其基于云的推理可支持远程协助或高清地图生成。

竞争格局:AI推理云提供商

| 公司 | 硬件 | 定价模式 | 关键差异化 | 目标用例 |
|---|---|---|---|---|
| Groq (NeoCloud) | 自研LPU | 按token计费 | 最低延迟、确定性 | 实时智能体、视频、交互式模型 |
| Together AI | NVIDIA H100, AMD MI300X | 按token计费 | 高吞吐量、模型多样性 | LLM聊天、代码生成 |
| Fireworks AI | NVIDIA H100 | 按token计费 | 快速微调、低成本 | 批量推理、微调 |
| Replicate | NVIDIA A100, H100 | 按秒计费 | 易用性、社区模型 | 原型开发、小规模推理 |
| Anyscale | Ray + NVIDIA | 按小时计费 | 可扩展分布式推理 | 企业级、大规模部署 |

**数据

更多来自 TechCrunch AI

无限循环革命:AI智能体如何通过永续迭代重塑自主决策AI智能体领域正经历一场根本性变革。过去的主流范式——智能体接收提示、执行任务、然后停止——正被一种全新模型「Loopy」架构所取代。在这一框架中,多个专业智能体在一个持续、自我强化的循环中运行。每个智能体的输出被反馈回系统作为输入,形成永英伟达节水冷却方案,治标不治本:AI真正的“水龙头”在发电厂英伟达近日宣布为其数据中心GPU推出新一代冷却系统,旨在大幅减少现场用水。该系统采用闭环液冷和先进干冷技术,与传统蒸发冷却塔相比,可将直接用水量削减高达90%。这是一项值得称赞的工程成就——它减少了服务器机架散热所需的水量,降低了运营成本,特朗普监管重锤砸向Anthropic:AI权力洗牌,谁才是真正赢家?特朗普政府不断升级对Anthropic的监管压力,标志着美国AI政策的决定性转折——从技术中立立场转向明确针对那些倡导安全优先框架的公司。我们的调查显示,这一行动表面上关乎反垄断与国家安全,实则正以有利于特定玩家的方式重塑竞争格局。与微软深查看来源专题页TechCrunch AI 已收录 88 篇文章

相关专题

AI inference30 篇相关文章

时间归档

June 20262214 篇已发布文章

延伸阅读

Cerebras 启动 IPO:晶圆级计算能否在 AI 硬件革命中颠覆 GPU 霸权?AI 处理器新贵 Cerebras Systems 已秘密提交首次公开募股申请。此举紧随其与 AWS 达成战略合作,以及获得为 OpenAI 下一代模型提供算力的数十亿美元大单之后。这家以颠覆性晶圆级架构著称的公司,即将在公开市场直面以英伟Gimlet Labs软件层破局:在碎片化硬件生态中解锁AI推理效率AI产业正面临一个悖论性瓶颈:模型能力呈指数级进步,底层硬件生态却日益碎片化,导致实际部署效率严重受损。近期获得大额融资的初创公司Gimlet Labs并未选择造芯,而是通过构建精密的软件层,承诺在异构硬件间智能编排AI工作负载,直击行业痛AI推理:硅谷旧规则为何在新战场上彻底失效多年来,AI行业一直以为推理会遵循与训练相同的成本曲线。但我们的分析揭示了一个截然不同的现实:推理对延迟敏感、受内存带宽限制,并且需要一套全新的软硬件堆栈。这一转变正在重塑芯片设计、云定价以及整个AI商业模式。无限循环革命:AI智能体如何通过永续迭代重塑自主决策AI智能体正从一次性任务执行进化为永不停歇的自我优化循环。AINews深度解析「Loopy」架构——一群智能体持续运行、无需人工干预地迭代进化,并探讨这一模式对企业自动化、实时决策乃至通往AGI之路的深远影响。

常见问题

这起“Groq's Pivot from Chipmaker to AI Inference Cloud Reshapes Computing”融资事件讲了什么?

Groq, once a challenger to Nvidia in the AI chip space, has announced a $650 million funding round to pivot its business model entirely. The company is now positioning itself as an…

从“Groq LPU vs NVIDIA H100 inference latency comparison”看,为什么这笔融资值得关注?

Groq's pivot to an inference cloud service is built on the unique architectural strengths of its Language Processing Unit (LPU). Unlike Nvidia's GPUs, which rely on a SIMT (Single Instruction, Multiple Threads) architect…

这起融资事件在“Groq NeoCloud pricing per token”上释放了什么行业信号?

它通常意味着该赛道正在进入资源加速集聚期,后续值得继续关注团队扩张、产品落地、商业化验证和同类公司跟进。