曲境科技ATaaS平台向GPU浪费宣战，以Token效率重构AI基础设施

曲境科技近日正式发布其AI Token即服务（ATaaS）平台，此举被视作对当前AI基础设施领域“暴力计算”主流范式的直接挑战。其核心主张堪称激进：ATaaS不再出售原始的GPU计算时长或硬件集群访问权，而是出售有保障的AI Token产出——这些Token正是大语言模型与AI智能体运算的基本单元。这一转变将价值主张从资源分配转向结果交付，将优化责任完全置于服务提供商肩上。

平台宣布的目标是最大化每单位电力与资本支出的有效AI产出。这意味着需要深度整合先进的任务调度系统，可能涉及动态电压频率调节等技术，以实现硬件资源的极致利用。通过将计算能力商品化为可预测、可计量的Token输出，曲境试图为模型训练与推理建立全新的效率基准，从根本上改变企业采购AI算力的经济模型。若其承诺得以实现，长期困扰行业的GPU资源闲置、配置过度与能源浪费问题或将迎来系统性解决方案。

技术深度解析

曲境的ATaaS平台堪称系统工程领域的杰作，需协同硬件、软件与算法以实现其承诺。尽管完整架构细节属于商业机密，但该平台很可能建立在几大技术支柱之上。

首先是智能预测性任务调度。传统集群调度器（如Kubernetes）将GPU工作负载视为整体容器。ATaaS的调度器必须在细粒度层面理解基于Transformer模型的计算图。它很可能采用强化学习智能体来预测任务完成时间，并将异构工作负载（不同批大小的训练、微调、推理）动态装箱打包到GPU节点上，以最小化碎片化与空闲时间。这可能涉及与Google DeepMind“AlphaZero集群调度”开源研究类似的技术，但需专门针对AI工作负载的随机性与突发性进行适配。

其次是异构计算编排。Token生成流程中各环节的计算需求并不相同。平台很可能采用分层系统：在敏感训练阶段的关键前向传播使用高精度FP8或FP16，而对敏感度较低的层或在推理阶段则采用激进的INT4量化甚至二值权重。调度器不仅需决定*在何处*运行任务，还需决定*以何种数值精度*运行，从而以最低能耗满足客户的服务质量协议。这与微软DeepSpeed等开源项目的趋势一致（其包含用于CPU/GPU内存管理的Zero-Offload及极端量化技术ZeroQuant），但ATaaS需要动态自动化这些选择。

第三是编译器级优化。为从给定芯片中榨取最大性能，ATaaS很可能使用高度定制的编译器栈。这可能基于对MLIR（多级中间表示）或Apache TVM的扩展，后者支持硬件特定的内核生成。该编译器将接收标准模型格式（如ONNX），并将其编译为适配曲境数据中心内特定服务器刀片配置的版本，而非针对通用的A100或H100，同时考虑内存带宽、NVLink拓扑乃至散热能力。

ATaaS的一个关键指标将是每焦耳Token数或每美元Token数。这是最终的效率关键绩效指标。尽管曲境尚未发布完整基准测试数据，我们可以基于行业基线推断其目标性能。

| 计算范式 | 典型效率（Token/千瓦时） | 主要成本驱动因素 | 优化重点 |
|---|---|---|---|
| 标准云GPU（按需） | 约0.5-2M（预估） | 闲置时间、过度配置 | 利用率 |
| 预留实例/集群 | 约2-5M（预估） | 静态分配、打包效率低 | 任务调度 |
| 曲境ATaaS（预期） | 5-15M+（目标） | 算法低效 | 端到端栈协同设计 |
| 理论峰值（H100） | 约20M（预估） | 芯片极限 | 硬件架构 |

数据启示： 上表演示了ATaaS旨在弥合的效率鸿沟。从标准云供应模式转向Token效率模型，需要将每单位能源的有效产出提升5-10倍，这仅靠硬件无法实现，必须依赖上文所述的深度软件集成。

关键参与者与案例分析

ATaaS的发布使曲境与多家老牌巨头及新兴专业公司形成直接或间接竞争。这场战役的核心在于重新定义AI云服务的价值。

最直接的竞争对手是超大规模云厂商：包括亚马逊AWS（凭借SageMaker及Trainium/Inferentia芯片）、谷歌云（凭借Vertex AI及TPU v5e） 以及微软Azure（凭借OpenAI专用基础设施及Maia芯片）。它们当前的模式主要是基础设施即服务（IaaS）或托管平台即服务（PaaS）。它们出售计算时长，效率提升体现为更低的时租费率或通过自研芯片实现。曲境的ATaaS通过出售“结果”而非“资源”来挑战这一模式。这类似于出售柴油燃料（IaaS）与出售有保障的行驶里程（ATaaS）之间的区别。

专业AI云提供商构成了另一竞争层面。CoreWeave和Lambda Labs通过提供原始高性能GPU实例建立业务，其供应速度常快于超大规模厂商。它们的价值主张是速度与稀缺硬件（如H100）的获取。Together AI与Anyscale则更专注于软件栈（如Ray、开源模型托管），以提升开发者在云实例上的生产效率。曲境的模式与之正交；理论上，它可以在CoreWeave或AWS的GPU算力之上运行其ATaaS层，跨平台优化以交付成本最低的Token。

一个具有启示性的案例是NVIDIA DGX Cloud的演变。其最初以全栈AI超级计算机的形式推出，

常见问题

这次公司发布“Qujing's ATaaS Platform Declares War on GPU Waste, Pivoting AI Infrastructure to Token Efficiency”主要讲了什么？

Qujing Technology has formally unveiled its AI Token-as-a-Service (ATaaS) platform, positioning it as a direct challenge to the prevailing 'brute force' paradigm in AI infrastructu…

从“Qujing ATaaS vs AWS SageMaker cost comparison”看，这家公司的这次发布为什么值得关注？

Qujing's ATaaS platform represents a systems engineering marvel that must orchestrate hardware, software, and algorithms to deliver on its promise. While full architectural details are proprietary, the platform likely re…

围绕“how does AI Token as a Service work technically”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。