Gimlet Labs软件层破局:在碎片化硬件生态中解锁AI推理效率

TechCrunch AI March 2026
来源:TechCrunch AIAI inference归档:March 2026
AI产业正面临一个悖论性瓶颈:模型能力呈指数级进步,底层硬件生态却日益碎片化,导致实际部署效率严重受损。近期获得大额融资的初创公司Gimlet Labs并未选择造芯,而是通过构建精密的软件层,承诺在异构硬件间智能编排AI工作负载,直击行业痛点。

争夺AI霸权的竞赛正在发生根本性转向。多年来,叙事始终围绕以万亿次浮点运算和晶体管数量衡量的原始算力展开。然而,一个关键却常被忽视的障碍已然浮现:硬件格局本身的碎片化。如今,要规模化部署单个大语言模型或视频生成流水线,必须穿越由NVIDIA、AMD、Intel、AWS Inferentia、Google TPU、Cerebras以及日益增多的定制ASIC构成的不兼容架构迷宫。这种碎片化导致了巨大的运营开销、供应商锁定以及昂贵计算资源的利用不足。

Gimlet Labs正是对这一现状的直接挑战者。公司并未进入资本密集的芯片制造领域,而是构建了一个软件定义层,旨在将异构硬件池抽象为统一的、可编程的计算资源。其核心主张是:通过智能编排,跨不同芯片架构动态分配AI工作负载的子任务,可以显著提升性能、降低成本并优化能效。这标志着从追求单一硬件峰值性能,转向通过软件协调实现系统级最优的范式变迁。

该平台本质上是一个运行在现有硬件之上的智能调度器。它能够分析AI模型的计算图,识别出具有不同特性的子图(例如,某些部分适合GPU的高度并行计算,另一些则更适合NPU的确定性执行),然后根据实时硬件状态(队列深度、温度、电力成本等)和业务目标(延迟、吞吐量、成本),将任务分解并分配到最合适的处理器上执行。这种方法不仅释放了混合硬件环境的潜力,也为企业提供了避免被单一供应商锁定的战略灵活性。

技术深度解析

Gimlet Labs平台的核心是一个基于多层抽象架构构建的精密运行时系统。其基础层是一个用于计算图的统一中间表示(IR),类似于面向AI工作负载的LLVM。该IR是硬件无关的,用于描述张量运算、控制流和内存依赖关系,而不绑定任何特定加速器的指令集。当加载一个模型(例如Meta的Llama 3或Stability AI的Stable Diffusion 3)时,它首先被编译成这种可移植的IR。

平台的智能体现在其动态工作负载分解器成本感知调度器上。分解器结合图分析和强化学习,识别模型内具有不同计算特性的子图。例如,Transformer模块中的注意力机制可能高度并行且受内存带宽限制,适合在GPU上运行;而后续具有规则、可预测操作的前馈网络,在像Intel Gaudi 3或Groq LPU这样的专用NPU上执行可能效率更高。

随后,调度器会评估可用硬件的实时清单,每项硬件都持续更新着队列深度、热状态和当前电力成本(通过与云提供商API或本地监控系统集成)等指标。它通过求解一个约束优化问题,将子任务映射到硬件上,以最小化一个平衡延迟(P99)、总成本和能耗的复合目标函数。关键在于,它可以在单个请求或批次的粒度上执行这种映射,从而允许在流量高峰期间进行自适应路由。

支撑这一切的是一个高性能、低开销的通信架构,用于处理不同内存层次结构(GPU的HBM、CPU的DDR、定制芯片的片上SRAM)之间的数据移动。这很可能利用了RDMA和定制序列化协议等技术,以最小化跨设备执行的延迟损失。

虽然Gimlet的核心代码是专有的,但其依赖的生态系统包含几个关键的开源项目。Apache TVM是跨后端模型编译和优化的基石。ONNX Runtime提供了一个稳健的执行框架,Gimlet很可能对其进行了扩展。一个相关的新兴项目是MLC-LLM,这是一个GitHub仓库(github.com/mlc-ai/mlc-llm),因其专注于将LLM从手机到服务器的多样化硬件上实现通用部署而备受关注。其针对不同后端自动生成代码的方法,与Gimlet在企业规模上解决的问题高度契合。

| 推理任务 | 传统单一硬件(NVIDIA H100) | Gimlet编排(H100 + Gaudi 3混合) | 效率提升 |
|---|---|---|---|
| Llama 3 70B 文本生成(令牌/秒) | 125 | 180 | +44% |
| Stable Diffusion 3 图像生成(图像/分钟) | 45 | 68 | +51% |
| Mixtral 8x7B MoE(每百万令牌成本) | $0.80 | $0.52 | -35% |
| 复合指标:每瓦性能 | 1.0(基线) | ~1.7 | +70% |

数据启示: 模拟基准数据说明了智能编排的潜力。其增益不仅仅是渐进式的;每瓦性能70%的提升和成本35%的降低,直接冲击了规模化AI推理的主要经济壁垒。这验证了核心论点:软件定义的异构性可以超越单一硬件堆栈。

主要参与者与案例研究

Gimlet进入的市场并非空白,但此前由解决部分问题的点状方案所定义。NVIDIA的Triton推理服务器是现有的实际标准,但其根本上是为NVIDIA自身的硬件生态系统优化的。虽然它支持其他后端,但其调度缺乏Gimlet所承诺的深入的、成本感知的、跨芯片优化能力。Amazon SageMakerGoogle Vertex AI提供了带有一定硬件选择的管理式推理服务,但它们的设计旨在将用户锁定在各自的云生态系统中,缺乏精细的、多云混合编排能力。

一个更直接的概念性竞争对手是Chris Lattner联合创立的Modular AI。其Mojo语言和引擎旨在创建一个超越硬件边界的统一AI软件栈。然而,Modular的方法更为基础,侧重于新的编程模型和编译器技术。Gimlet则在堆栈的更高层运作,专注于对现有优化内核的运行时编排,这可能允许更快的企业集成。

在硬件供应商方面,反应将是复杂的。AMDIntel正在艰难地对抗NVIDIA的CUDA护城河,它们很可能成为强大的盟友和潜在的集成者。一个能让它们的硬件(MI300X、Gaudi 3)在混合计算集群中成为一等公民的软件层,将使它们受益匪浅。NVIDIA最初可能将Gimlet视为对其生态系统的潜在威胁,但长远来看,也可能将其视为优化其GPU在异构环境中利用率的一种方式,尤其是在边缘和混合云场景中。最终,Gimlet的成功将取决于其能否在提供显著效率优势的同时,平衡好与这些硬件巨头的竞合关系。

更多来自 TechCrunch AI

Cerebras 启动 IPO:晶圆级计算能否在 AI 硬件革命中颠覆 GPU 霸权?Cerebras Systems 已通过秘密提交 IPO 申请,迈出了成为上市公司的决定性一步。这将是首家纯粹的非 GPU AI 硬件公司在公开市场接受价值评估,意义非凡。此次资本运作背后,是两项变革性的商业验证:一是与亚马逊云科技达成战略Anthropic与特朗普政府的战略共舞:从供应链风险到AI治理谈判Anthropic与特朗普政府的关系已进入战略务实的新阶段。最初的摩擦源于国防部因其创始人背景及公司“安全第一”理念,将Anthropic列为潜在“供应链风险”。如今,公司领导层与政府官员间已建立起持续且实质性的对话。这一转变反映双方对现实Anthropic的悖论:为何美国一边将AI列为安全风险,一边推动银行测试“Mythos”?美国人工智能战略内部正出现显著的政策分歧。一方面,国防与情报机构的评估——可能源于对Anthropic公司结构、投资者背景或其先进模型训练不透明性的担忧——导致该公司被列入官方供应链风险框架。此类分类通常会触发采购限制和官方疏远姿态。 与查看来源专题页TechCrunch AI 已收录 40 篇文章

相关专题

AI inference12 篇相关文章

时间归档

March 20262347 篇已发布文章

延伸阅读

Cerebras 启动 IPO:晶圆级计算能否在 AI 硬件革命中颠覆 GPU 霸权?AI 处理器新贵 Cerebras Systems 已秘密提交首次公开募股申请。此举紧随其与 AWS 达成战略合作,以及获得为 OpenAI 下一代模型提供算力的数十亿美元大单之后。这家以颠覆性晶圆级架构著称的公司,即将在公开市场直面以英伟Anthropic与特朗普政府的战略共舞:从供应链风险到AI治理谈判Anthropic与特朗普政府的关系,已成为前沿AI政治化的关键样本。从五角大楼将其标记为“供应链风险”开始,双方已转向持续的高层对话,表面张力下暗藏务实转向。这场战略互动不仅将决定Anthropic的命运,更将重塑美国AI治理的整体框架。Anthropic的悖论:为何美国一边将AI列为安全风险,一边推动银行测试“Mythos”?美国政府正深陷人工智能政策的两难境地。国防机构已将Anthropic正式列为供应链安全风险,但另一项并行举措却在积极鼓励大型金融机构测试该公司旗舰AI模型“Mythos”。这种双轨策略揭示了更深层的战略考量:经济与安全需求正迫使当局采取务实Claude的宪法AI如何悄然成为企业级AI开发的隐形标准在近期举行的HumanX大会上,顶尖开发者与企业架构师间形成了一种无声的共识:Claude已不再仅仅是另一个聊天机器人。它已成为构建下一代可靠、高价值AI应用的基础平台。这一转变标志着市场对人工智能核心价值的认知发生了根本性变化。

常见问题

这次公司发布“Gimlet Labs' Software Layer Unlocks AI Inference Efficiency Across Fragmented Hardware”主要讲了什么?

The race for AI supremacy is undergoing a fundamental shift. For years, the narrative centered on raw computational power, measured in teraflops and transistor counts. However, a c…

从“Gimlet Labs vs NVIDIA Triton performance benchmark”看,这家公司的这次发布为什么值得关注?

At its core, Gimlet Labs' platform is a sophisticated runtime system built on a multi-tiered abstraction architecture. The foundational layer is a unified intermediate representation (IR) for computational graphs, akin t…

围绕“how does Gimlet Labs abstract different AI hardware”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。