Groq战略转身：从芯片制造商到AI推理云，重塑计算格局

2026年6月23日 04:32 AINews TechCrunch AI June 2026

来源：TechCrunch AI AI inference 归档：June 2026

Groq完成6.5亿美元融资并重组高管团队，从纯芯片制造商转型为AI推理云服务提供商。此举紧随英伟达一笔价值200亿美元的“非收购式挖角”交易，标志着Groq押注实时、低延迟AI工作负载的战略决心。

Groq，这家曾被视为英伟达在AI芯片领域挑战者的公司，近日宣布完成6.5亿美元融资，并彻底转型其商业模式。公司现以“NeoCloud”品牌定位为AI推理即服务平台，从销售硬件转向提供基于云的自研语言处理单元（LPU）访问。这一战略转变发生在英伟达通过一笔价值200亿美元的“非收购式挖角”交易，实际上吸纳了Groq大量人才和技术之后。Groq并未选择在通用GPU市场与英伟达正面竞争，而是聚焦于超低延迟推理，服务于自主智能体、实时视频生成和交互式世界模型等应用。这笔6.5亿美元资金将用于扩展其云基础设施，以支持这一全新定位。

技术深度解析

Groq向推理云服务的转型，根植于其语言处理单元（LPU）独特的架构优势。与依赖SIMT（单指令多线程）架构、针对训练中并行矩阵运算优化的英伟达GPU不同，LPU是一种确定性、张量流式处理器，专为顺序、低延迟执行而设计。LPU的关键创新在于摒弃了传统的缓存层次结构和乱序执行逻辑。取而代之的是，它采用软件定义的静态调度方法：编译器预先将整个神经网络图映射到芯片的计算资源上。这意味着，对于给定的模型，LPU确切知道每个操作发生在哪个时钟周期，从而消除了困扰通用处理器的缓存未命中与分支预测错误的不确定性。

这种确定性执行对于实时推理至关重要。在GPU上，由于内存争用和调度开销，处理单个token的时间可能波动数十毫秒。而在LPU上，token生成延迟几乎恒定，对于Llama 3 70B等模型，通常在10-15毫秒范围内。这使得LPU成为响应时间一致性比峰值吞吐量更重要的应用的理想选择。

然而，这种架构也伴随着权衡。LPU并非通用计算引擎。它无法高效运行训练所需的反向传播算法，也无法处理现代数据中心中的多样化工作负载（如数据处理、Web服务）。它是一种专门的推理加速器。编译器才是秘密武器——Groq的软件栈（部分已在GitHub上以`groq`组织名义开源）包含一个基于MLIR的自定义编译器，可将PyTorch和ONNX模型映射到LPU的指令集。仓库`groq/groqflow`（超过2000颗星）提供了模型量化和部署工具，但核心编译器仍为专有。

基准对比：LPU vs. GPU推理

| 模型 | 硬件 | 延迟（首token） | 吞吐量（token/秒） | 每百万token成本（美元） |
|---|---|---|---|---|
| Llama 3 70B | Groq LPU（单芯片） | 12 ms | 85 | $0.35 |
| Llama 3 70B | NVIDIA H100（8卡） | 35 ms | 120 | $0.80 |
| Llama 3 70B | NVIDIA A100（8卡） | 55 ms | 60 | $0.50 |
| Mistral 7B | Groq LPU（单芯片） | 4 ms | 480 | $0.08 |
| Mistral 7B | NVIDIA H100（单卡） | 15 ms | 200 | $0.15 |

数据要点： 对于大模型，LPU的首token延迟比H100集群低3倍，但吞吐量更低。这证实了Groq的定位：优先考虑响应速度而非原始token生成速度的应用。成本优势也很明显，尤其是对于较小模型，这使得Groq成为高容量、延迟敏感推理场景中一个极具吸引力的选择。

关键玩家与案例研究

Groq的新战略直接瞄准了实时AI应用的新兴市场。该领域的关键玩家包括：

- Anthropic：其Claude模型越来越多地用于智能体工作流（如编程助手、客服机器人），在这些场景中，延迟直接影响用户体验。Anthropic已公开表示，推理延迟是规模化部署智能体的主要瓶颈。Groq的低延迟LPU可能成为Anthropic API的首选推理后端，尤其是针对“Claude Instant”层级。
- RunwayML：作为生成式视频领域的领导者，Runway的Gen-3 Alpha模型需要近乎实时的反馈以支持交互式编辑。Groq的确定性延迟比基于GPU的推理更适合此场景，后者可能产生不可预测的帧时间。
- Hugging Face：该平台的Inference Endpoints服务允许开发者在各种硬件上部署模型。Groq可与Hugging Face合作，提供“超低延迟”层级，直接与目前使用NVIDIA GPU的Replicate和Fireworks AI竞争。
- Waymo / Cruise：自动驾驶需要低于100毫秒的推理延迟用于感知和规划。虽然Groq的LPU并非为边缘端设计（功耗高，非车规级），但其基于云的推理可支持远程协助或高清地图生成。

竞争格局：AI推理云提供商

| 公司 | 硬件 | 定价模式 | 关键差异化 | 目标用例 |
|---|---|---|---|---|
| Groq (NeoCloud) | 自研LPU | 按token计费 | 最低延迟、确定性 | 实时智能体、视频、交互式模型 |
| Together AI | NVIDIA H100, AMD MI300X | 按token计费 | 高吞吐量、模型多样性 | LLM聊天、代码生成 |
| Fireworks AI | NVIDIA H100 | 按token计费 | 快速微调、低成本 | 批量推理、微调 |
| Replicate | NVIDIA A100, H100 | 按秒计费 | 易用性、社区模型 | 原型开发、小规模推理 |
| Anyscale | Ray + NVIDIA | 按小时计费 | 可扩展分布式推理 | 企业级、大规模部署 |

**数据

时间归档

常见问题

这起“Groq's Pivot from Chipmaker to AI Inference Cloud Reshapes Computing”融资事件讲了什么？

Groq, once a challenger to Nvidia in the AI chip space, has announced a $650 million funding round to pivot its business model entirely. The company is now positioning itself as an…

从“Groq LPU vs NVIDIA H100 inference latency comparison”看，为什么这笔融资值得关注？

Groq's pivot to an inference cloud service is built on the unique architectural strengths of its Language Processing Unit (LPU). Unlike Nvidia's GPUs, which rely on a SIMT (Single Instruction, Multiple Threads) architect…

这起融资事件在“Groq NeoCloud pricing per token”上释放了什么行业信号？

它通常意味着该赛道正在进入资源加速集聚期，后续值得继续关注团队扩张、产品落地、商业化验证和同类公司跟进。

Groq战略转身：从芯片制造商到AI推理云，重塑计算格局

技术深度解析

关键玩家与案例研究

更多来自 TechCrunch AI

相关专题

时间归档

延伸阅读

常见问题