曲境科技ATaaS平台向GPU浪费宣战,以Token效率重构AI基础设施

曲境科技近日正式发布其AI Token即服务(ATaaS)平台,此举被视作对当前AI基础设施领域“暴力计算”主流范式的直接挑战。其核心主张堪称激进:ATaaS不再出售原始的GPU计算时长或硬件集群访问权,而是出售有保障的AI Token产出——这些Token正是大语言模型与AI智能体运算的基本单元。这一转变将价值主张从资源分配转向结果交付,将优化责任完全置于服务提供商肩上。

平台宣布的目标是最大化每单位电力与资本支出的有效AI产出。这意味着需要深度整合先进的任务调度系统,可能涉及动态电压频率调节等技术,以实现硬件资源的极致利用。通过将计算能力商品化为可预测、可计量的Token输出,曲境试图为模型训练与推理建立全新的效率基准,从根本上改变企业采购AI算力的经济模型。若其承诺得以实现,长期困扰行业的GPU资源闲置、配置过度与能源浪费问题或将迎来系统性解决方案。

技术深度解析

曲境的ATaaS平台堪称系统工程领域的杰作,需协同硬件、软件与算法以实现其承诺。尽管完整架构细节属于商业机密,但该平台很可能建立在几大技术支柱之上。

首先是智能预测性任务调度。传统集群调度器(如Kubernetes)将GPU工作负载视为整体容器。ATaaS的调度器必须在细粒度层面理解基于Transformer模型的计算图。它很可能采用强化学习智能体来预测任务完成时间,并将异构工作负载(不同批大小的训练、微调、推理)动态装箱打包到GPU节点上,以最小化碎片化与空闲时间。这可能涉及与Google DeepMind“AlphaZero集群调度”开源研究类似的技术,但需专门针对AI工作负载的随机性与突发性进行适配。

其次是异构计算编排。Token生成流程中各环节的计算需求并不相同。平台很可能采用分层系统:在敏感训练阶段的关键前向传播使用高精度FP8或FP16,而对敏感度较低的层或在推理阶段则采用激进的INT4量化甚至二值权重。调度器不仅需决定*在何处*运行任务,还需决定*以何种数值精度*运行,从而以最低能耗满足客户的服务质量协议。这与微软DeepSpeed等开源项目的趋势一致(其包含用于CPU/GPU内存管理的Zero-Offload及极端量化技术ZeroQuant),但ATaaS需要动态自动化这些选择。

第三是编译器级优化。为从给定芯片中榨取最大性能,ATaaS很可能使用高度定制的编译器栈。这可能基于对MLIR(多级中间表示)或Apache TVM的扩展,后者支持硬件特定的内核生成。该编译器将接收标准模型格式(如ONNX),并将其编译为适配曲境数据中心内特定服务器刀片配置的版本,而非针对通用的A100或H100,同时考虑内存带宽、NVLink拓扑乃至散热能力。

ATaaS的一个关键指标将是每焦耳Token数每美元Token数。这是最终的效率关键绩效指标。尽管曲境尚未发布完整基准测试数据,我们可以基于行业基线推断其目标性能。

| 计算范式 | 典型效率(Token/千瓦时) | 主要成本驱动因素 | 优化重点 |
|---|---|---|---|
| 标准云GPU(按需) | 约0.5-2M(预估) | 闲置时间、过度配置 | 利用率 |
| 预留实例/集群 | 约2-5M(预估) | 静态分配、打包效率低 | 任务调度 |
| 曲境ATaaS(预期) | 5-15M+(目标) | 算法低效 | 端到端栈协同设计 |
| 理论峰值(H100) | 约20M(预估) | 芯片极限 | 硬件架构 |

数据启示: 上表演示了ATaaS旨在弥合的效率鸿沟。从标准云供应模式转向Token效率模型,需要将每单位能源的有效产出提升5-10倍,这仅靠硬件无法实现,必须依赖上文所述的深度软件集成。

关键参与者与案例分析

ATaaS的发布使曲境与多家老牌巨头及新兴专业公司形成直接或间接竞争。这场战役的核心在于重新定义AI云服务的价值。

最直接的竞争对手是超大规模云厂商:包括亚马逊AWS(凭借SageMaker及Trainium/Inferentia芯片)谷歌云(凭借Vertex AI及TPU v5e) 以及微软Azure(凭借OpenAI专用基础设施及Maia芯片)。它们当前的模式主要是基础设施即服务(IaaS)或托管平台即服务(PaaS)。它们出售计算时长,效率提升体现为更低的时租费率或通过自研芯片实现。曲境的ATaaS通过出售“结果”而非“资源”来挑战这一模式。这类似于出售柴油燃料(IaaS)与出售有保障的行驶里程(ATaaS)之间的区别。

专业AI云提供商构成了另一竞争层面。CoreWeaveLambda Labs通过提供原始高性能GPU实例建立业务,其供应速度常快于超大规模厂商。它们的价值主张是速度与稀缺硬件(如H100)的获取。Together AIAnyscale则更专注于软件栈(如Ray、开源模型托管),以提升开发者在云实例上的生产效率。曲境的模式与之正交;理论上,它可以在CoreWeave或AWS的GPU算力之上运行其ATaaS层,跨平台优化以交付成本最低的Token。

一个具有启示性的案例是NVIDIA DGX Cloud的演变。其最初以全栈AI超级计算机的形式推出,

常见问题

这次公司发布“Qujing's ATaaS Platform Declares War on GPU Waste, Pivoting AI Infrastructure to Token Efficiency”主要讲了什么?

Qujing Technology has formally unveiled its AI Token-as-a-Service (ATaaS) platform, positioning it as a direct challenge to the prevailing 'brute force' paradigm in AI infrastructu…

从“Qujing ATaaS vs AWS SageMaker cost comparison”看,这家公司的这次发布为什么值得关注?

Qujing's ATaaS platform represents a systems engineering marvel that must orchestrate hardware, software, and algorithms to deliver on its promise. While full architectural details are proprietary, the platform likely re…

围绕“how does AI Token as a Service work technically”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。