Gimlet Labs软件层破局：在碎片化硬件生态中解锁AI推理效率

2026年3月24日 00:49 AINews TechCrunch AI March 2026

来源：TechCrunch AI AI inference 归档：March 2026

AI产业正面临一个悖论性瓶颈：模型能力呈指数级进步，底层硬件生态却日益碎片化，导致实际部署效率严重受损。近期获得大额融资的初创公司Gimlet Labs并未选择造芯，而是通过构建精密的软件层，承诺在异构硬件间智能编排AI工作负载，直击行业痛点。

争夺AI霸权的竞赛正在发生根本性转向。多年来，叙事始终围绕以万亿次浮点运算和晶体管数量衡量的原始算力展开。然而，一个关键却常被忽视的障碍已然浮现：硬件格局本身的碎片化。如今，要规模化部署单个大语言模型或视频生成流水线，必须穿越由NVIDIA、AMD、Intel、AWS Inferentia、Google TPU、Cerebras以及日益增多的定制ASIC构成的不兼容架构迷宫。这种碎片化导致了巨大的运营开销、供应商锁定以及昂贵计算资源的利用不足。

Gimlet Labs正是对这一现状的直接挑战者。公司并未进入资本密集的芯片制造领域，而是构建了一个软件定义层，旨在将异构硬件池抽象为统一的、可编程的计算资源。其核心主张是：通过智能编排，跨不同芯片架构动态分配AI工作负载的子任务，可以显著提升性能、降低成本并优化能效。这标志着从追求单一硬件峰值性能，转向通过软件协调实现系统级最优的范式变迁。

该平台本质上是一个运行在现有硬件之上的智能调度器。它能够分析AI模型的计算图，识别出具有不同特性的子图（例如，某些部分适合GPU的高度并行计算，另一些则更适合NPU的确定性执行），然后根据实时硬件状态（队列深度、温度、电力成本等）和业务目标（延迟、吞吐量、成本），将任务分解并分配到最合适的处理器上执行。这种方法不仅释放了混合硬件环境的潜力，也为企业提供了避免被单一供应商锁定的战略灵活性。

技术深度解析

Gimlet Labs平台的核心是一个基于多层抽象架构构建的精密运行时系统。其基础层是一个用于计算图的统一中间表示（IR），类似于面向AI工作负载的LLVM。该IR是硬件无关的，用于描述张量运算、控制流和内存依赖关系，而不绑定任何特定加速器的指令集。当加载一个模型（例如Meta的Llama 3或Stability AI的Stable Diffusion 3）时，它首先被编译成这种可移植的IR。

平台的智能体现在其动态工作负载分解器和成本感知调度器上。分解器结合图分析和强化学习，识别模型内具有不同计算特性的子图。例如，Transformer模块中的注意力机制可能高度并行且受内存带宽限制，适合在GPU上运行；而后续具有规则、可预测操作的前馈网络，在像Intel Gaudi 3或Groq LPU这样的专用NPU上执行可能效率更高。

随后，调度器会评估可用硬件的实时清单，每项硬件都持续更新着队列深度、热状态和当前电力成本（通过与云提供商API或本地监控系统集成）等指标。它通过求解一个约束优化问题，将子任务映射到硬件上，以最小化一个平衡延迟（P99）、总成本和能耗的复合目标函数。关键在于，它可以在单个请求或批次的粒度上执行这种映射，从而允许在流量高峰期间进行自适应路由。

支撑这一切的是一个高性能、低开销的通信架构，用于处理不同内存层次结构（GPU的HBM、CPU的DDR、定制芯片的片上SRAM）之间的数据移动。这很可能利用了RDMA和定制序列化协议等技术，以最小化跨设备执行的延迟损失。

虽然Gimlet的核心代码是专有的，但其依赖的生态系统包含几个关键的开源项目。Apache TVM是跨后端模型编译和优化的基石。ONNX Runtime提供了一个稳健的执行框架，Gimlet很可能对其进行了扩展。一个相关的新兴项目是MLC-LLM，这是一个GitHub仓库（github.com/mlc-ai/mlc-llm），因其专注于将LLM从手机到服务器的多样化硬件上实现通用部署而备受关注。其针对不同后端自动生成代码的方法，与Gimlet在企业规模上解决的问题高度契合。

| 推理任务 | 传统单一硬件（NVIDIA H100） | Gimlet编排（H100 + Gaudi 3混合） | 效率提升 |
|---|---|---|---|
| Llama 3 70B 文本生成（令牌/秒） | 125 | 180 | +44% |
| Stable Diffusion 3 图像生成（图像/分钟） | 45 | 68 | +51% |
| Mixtral 8x7B MoE（每百万令牌成本） | $0.80 | $0.52 | -35% |
| 复合指标：每瓦性能 | 1.0（基线） | ~1.7 | +70% |

数据启示： 模拟基准数据说明了智能编排的潜力。其增益不仅仅是渐进式的；每瓦性能70%的提升和成本35%的降低，直接冲击了规模化AI推理的主要经济壁垒。这验证了核心论点：软件定义的异构性可以超越单一硬件堆栈。

主要参与者与案例研究

Gimlet进入的市场并非空白，但此前由解决部分问题的点状方案所定义。NVIDIA的Triton推理服务器是现有的实际标准，但其根本上是为NVIDIA自身的硬件生态系统优化的。虽然它支持其他后端，但其调度缺乏Gimlet所承诺的深入的、成本感知的、跨芯片优化能力。Amazon SageMaker和Google Vertex AI提供了带有一定硬件选择的管理式推理服务，但它们的设计旨在将用户锁定在各自的云生态系统中，缺乏精细的、多云混合编排能力。

一个更直接的概念性竞争对手是Chris Lattner联合创立的Modular AI。其Mojo语言和引擎旨在创建一个超越硬件边界的统一AI软件栈。然而，Modular的方法更为基础，侧重于新的编程模型和编译器技术。Gimlet则在堆栈的更高层运作，专注于对现有优化内核的运行时编排，这可能允许更快的企业集成。

在硬件供应商方面，反应将是复杂的。AMD和Intel正在艰难地对抗NVIDIA的CUDA护城河，它们很可能成为强大的盟友和潜在的集成者。一个能让它们的硬件（MI300X、Gaudi 3）在混合计算集群中成为一等公民的软件层，将使它们受益匪浅。NVIDIA最初可能将Gimlet视为对其生态系统的潜在威胁，但长远来看，也可能将其视为优化其GPU在异构环境中利用率的一种方式，尤其是在边缘和混合云场景中。最终，Gimlet的成功将取决于其能否在提供显著效率优势的同时，平衡好与这些硬件巨头的竞合关系。

时间归档

常见问题

这次公司发布“Gimlet Labs' Software Layer Unlocks AI Inference Efficiency Across Fragmented Hardware”主要讲了什么？

The race for AI supremacy is undergoing a fundamental shift. For years, the narrative centered on raw computational power, measured in teraflops and transistor counts. However, a c…

从“Gimlet Labs vs NVIDIA Triton performance benchmark”看，这家公司的这次发布为什么值得关注？

At its core, Gimlet Labs' platform is a sophisticated runtime system built on a multi-tiered abstraction architecture. The foundational layer is a unified intermediate representation (IR) for computational graphs, akin t…

围绕“how does Gimlet Labs abstract different AI hardware”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。

Gimlet Labs软件层破局：在碎片化硬件生态中解锁AI推理效率

技术深度解析

主要参与者与案例研究

更多来自 TechCrunch AI

相关专题

时间归档

延伸阅读

常见问题