Gimlet Labs软件层破局:在碎片化硬件生态中解锁AI推理效率

TechCrunch AI March 2026
来源:TechCrunch AIAI inference归档:March 2026
AI产业正面临一个悖论性瓶颈:模型能力呈指数级进步,底层硬件生态却日益碎片化,导致实际部署效率严重受损。近期获得大额融资的初创公司Gimlet Labs并未选择造芯,而是通过构建精密的软件层,承诺在异构硬件间智能编排AI工作负载,直击行业痛点。

争夺AI霸权的竞赛正在发生根本性转向。多年来,叙事始终围绕以万亿次浮点运算和晶体管数量衡量的原始算力展开。然而,一个关键却常被忽视的障碍已然浮现:硬件格局本身的碎片化。如今,要规模化部署单个大语言模型或视频生成流水线,必须穿越由NVIDIA、AMD、Intel、AWS Inferentia、Google TPU、Cerebras以及日益增多的定制ASIC构成的不兼容架构迷宫。这种碎片化导致了巨大的运营开销、供应商锁定以及昂贵计算资源的利用不足。

Gimlet Labs正是对这一现状的直接挑战者。公司并未进入资本密集的芯片制造领域,而是构建了一个软件定义层,旨在将异构硬件池抽象为统一的、可编程的计算资源。其核心主张是:通过智能编排,跨不同芯片架构动态分配AI工作负载的子任务,可以显著提升性能、降低成本并优化能效。这标志着从追求单一硬件峰值性能,转向通过软件协调实现系统级最优的范式变迁。

该平台本质上是一个运行在现有硬件之上的智能调度器。它能够分析AI模型的计算图,识别出具有不同特性的子图(例如,某些部分适合GPU的高度并行计算,另一些则更适合NPU的确定性执行),然后根据实时硬件状态(队列深度、温度、电力成本等)和业务目标(延迟、吞吐量、成本),将任务分解并分配到最合适的处理器上执行。这种方法不仅释放了混合硬件环境的潜力,也为企业提供了避免被单一供应商锁定的战略灵活性。

技术深度解析

Gimlet Labs平台的核心是一个基于多层抽象架构构建的精密运行时系统。其基础层是一个用于计算图的统一中间表示(IR),类似于面向AI工作负载的LLVM。该IR是硬件无关的,用于描述张量运算、控制流和内存依赖关系,而不绑定任何特定加速器的指令集。当加载一个模型(例如Meta的Llama 3或Stability AI的Stable Diffusion 3)时,它首先被编译成这种可移植的IR。

平台的智能体现在其动态工作负载分解器成本感知调度器上。分解器结合图分析和强化学习,识别模型内具有不同计算特性的子图。例如,Transformer模块中的注意力机制可能高度并行且受内存带宽限制,适合在GPU上运行;而后续具有规则、可预测操作的前馈网络,在像Intel Gaudi 3或Groq LPU这样的专用NPU上执行可能效率更高。

随后,调度器会评估可用硬件的实时清单,每项硬件都持续更新着队列深度、热状态和当前电力成本(通过与云提供商API或本地监控系统集成)等指标。它通过求解一个约束优化问题,将子任务映射到硬件上,以最小化一个平衡延迟(P99)、总成本和能耗的复合目标函数。关键在于,它可以在单个请求或批次的粒度上执行这种映射,从而允许在流量高峰期间进行自适应路由。

支撑这一切的是一个高性能、低开销的通信架构,用于处理不同内存层次结构(GPU的HBM、CPU的DDR、定制芯片的片上SRAM)之间的数据移动。这很可能利用了RDMA和定制序列化协议等技术,以最小化跨设备执行的延迟损失。

虽然Gimlet的核心代码是专有的,但其依赖的生态系统包含几个关键的开源项目。Apache TVM是跨后端模型编译和优化的基石。ONNX Runtime提供了一个稳健的执行框架,Gimlet很可能对其进行了扩展。一个相关的新兴项目是MLC-LLM,这是一个GitHub仓库(github.com/mlc-ai/mlc-llm),因其专注于将LLM从手机到服务器的多样化硬件上实现通用部署而备受关注。其针对不同后端自动生成代码的方法,与Gimlet在企业规模上解决的问题高度契合。

| 推理任务 | 传统单一硬件(NVIDIA H100) | Gimlet编排(H100 + Gaudi 3混合) | 效率提升 |
|---|---|---|---|
| Llama 3 70B 文本生成(令牌/秒) | 125 | 180 | +44% |
| Stable Diffusion 3 图像生成(图像/分钟) | 45 | 68 | +51% |
| Mixtral 8x7B MoE(每百万令牌成本) | $0.80 | $0.52 | -35% |
| 复合指标:每瓦性能 | 1.0(基线) | ~1.7 | +70% |

数据启示: 模拟基准数据说明了智能编排的潜力。其增益不仅仅是渐进式的;每瓦性能70%的提升和成本35%的降低,直接冲击了规模化AI推理的主要经济壁垒。这验证了核心论点:软件定义的异构性可以超越单一硬件堆栈。

主要参与者与案例研究

Gimlet进入的市场并非空白,但此前由解决部分问题的点状方案所定义。NVIDIA的Triton推理服务器是现有的实际标准,但其根本上是为NVIDIA自身的硬件生态系统优化的。虽然它支持其他后端,但其调度缺乏Gimlet所承诺的深入的、成本感知的、跨芯片优化能力。Amazon SageMakerGoogle Vertex AI提供了带有一定硬件选择的管理式推理服务,但它们的设计旨在将用户锁定在各自的云生态系统中,缺乏精细的、多云混合编排能力。

一个更直接的概念性竞争对手是Chris Lattner联合创立的Modular AI。其Mojo语言和引擎旨在创建一个超越硬件边界的统一AI软件栈。然而,Modular的方法更为基础,侧重于新的编程模型和编译器技术。Gimlet则在堆栈的更高层运作,专注于对现有优化内核的运行时编排,这可能允许更快的企业集成。

在硬件供应商方面,反应将是复杂的。AMDIntel正在艰难地对抗NVIDIA的CUDA护城河,它们很可能成为强大的盟友和潜在的集成者。一个能让它们的硬件(MI300X、Gaudi 3)在混合计算集群中成为一等公民的软件层,将使它们受益匪浅。NVIDIA最初可能将Gimlet视为对其生态系统的潜在威胁,但长远来看,也可能将其视为优化其GPU在异构环境中利用率的一种方式,尤其是在边缘和混合云场景中。最终,Gimlet的成功将取决于其能否在提供显著效率优势的同时,平衡好与这些硬件巨头的竞合关系。

更多来自 TechCrunch AI

Robinhood的AI交易账户:当算法接管你的资本Robinhood的最新产品创新允许用户开设一个专门的子账户,预先存入资金,并将交易决策权交给AI代理。与以往仅提供交易建议或分析的AI工具不同,该代理拥有直接市场访问权限,可在用户定义的风险参数内执行买入/卖出订单。其核心设计在于隔离机制Google Android XR眼镜:近乎完美,却身处最危险的境地AINews对Google最新的Android XR原型眼镜进行了独立测试,体验既令人惊艳又令人沮丧。其核心创新并非光学技术,而是Gemini AI模型理解上下文的能力。这款眼镜能自动决定何时显示翻译、何时隐藏导航箭头、何时保持透明。这种“信任崩塌:Sam Altman 的可信度成为 OpenAI 庭审核心在 Elon Musk 与 OpenAI 这场备受瞩目的诉讼最后阶段,法庭焦点已从合同纠纷和专利主张转向一个更直观的问题:OpenAI CEO Sam Altman 的个人诚信。法庭文件与证人证词显示,Altman 公开倡导谨慎开发 AI,查看来源专题页TechCrunch AI 已收录 68 篇文章

相关专题

AI inference23 篇相关文章

时间归档

March 20262347 篇已发布文章

延伸阅读

Cerebras 启动 IPO:晶圆级计算能否在 AI 硬件革命中颠覆 GPU 霸权?AI 处理器新贵 Cerebras Systems 已秘密提交首次公开募股申请。此举紧随其与 AWS 达成战略合作,以及获得为 OpenAI 下一代模型提供算力的数十亿美元大单之后。这家以颠覆性晶圆级架构著称的公司,即将在公开市场直面以英伟Token经济学:英伟达如何重写AI基础设施的价值规则英伟达正在悄然重新定义行业衡量AI基础设施价值的方式。随着推理工作负载超越训练,关键指标不再是峰值FLOPs或GPU数量——而是每个Token的成本。这一转变将决定谁能在AI浪潮中获利,谁将被淘汰。Robinhood的AI交易账户:当算法接管你的资本Robinhood推出新功能,允许用户创建独立账户并注入资金,由AI代理自主执行交易。这标志着AI从顾问角色向执行者的关键转变,引发了关于风险、责任以及金融自主权未来的深刻问题。Google Android XR眼镜:近乎完美,却身处最危险的境地搭载Gemini的Google Android XR原型眼镜,带来了迄今为止最自然的AI驱动增强现实体验。但狭窄的视场角和糟糕的续航暴露了一个残酷事实:软件智能已超越硬件工程,而“几乎到位”恰恰是最危险的产品标签。

常见问题

这次公司发布“Gimlet Labs' Software Layer Unlocks AI Inference Efficiency Across Fragmented Hardware”主要讲了什么?

The race for AI supremacy is undergoing a fundamental shift. For years, the narrative centered on raw computational power, measured in teraflops and transistor counts. However, a c…

从“Gimlet Labs vs NVIDIA Triton performance benchmark”看,这家公司的这次发布为什么值得关注?

At its core, Gimlet Labs' platform is a sophisticated runtime system built on a multi-tiered abstraction architecture. The foundational layer is a unified intermediate representation (IR) for computational graphs, akin t…

围绕“how does Gimlet Labs abstract different AI hardware”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。