曲径科技上演学术“奇袭”,AI下一战:高效推理军备竞赛鸣枪

曲径科技近日重磅宣布,聘请中国工程院院士郑纬民出任首席科学顾问,清华大学教授吴永伟担任首席科学家。此举远非寻常人才引进,而是直指AI产业核心痛点——标志着行业焦点正从盲目追求模型规模,转向攻克生产级高效、低成本AI推理这一关键瓶颈。

曲径科技延揽郑纬民院士与吴永伟教授,堪称一场精心策划的战略“奇袭”。其目标直指当前人工智能领域最紧迫的经济性挑战:从海量基础模型中生成Token的成本已高到难以为继。当整个行业仍沉迷于参数规模的军备竞赛时,现实是,要大规模部署这些模型,必须对底层计算基础设施进行根本性重构。郑纬民院士在可扩展存储系统与轻量级并行机制方面的奠基性工作,结合吴永伟教授在先进计算机系统架构与数据中心级资源管理领域的深厚造诣,为曲径科技提供了从第一性原理攻克此难题的顶级智力火力。这不仅是两家明星学者的加盟,更预示着一次从芯片、系统到软件栈的垂直整合与协同设计尝试。公司的雄心在于,打破现有由硬件巨头(如NVIDIA通过CUDA和TensorRT-LLM构建)主导的软硬件锁定局面,为AI推理开辟一条更高效率、更低成本的“曲径”。其成功与否,将不再仅由模型准确率衡量,而将取决于“每美元每秒生成的Token数”和“每焦耳生成的Token数”这类全新的硬核效率指标。这场战役的胜负,将决定下一代AI应用能否真正实现普惠与规模化落地。

技术深潜

曲径科技旨在攻克的核心技术挑战,是推理阶段与训练阶段相比不成比例的高成本与高延迟。训练一个如GPT-4般的模型固然是一次性的大规模资本支出,但推理却是随着使用量线性增长的持续性运营成本。标准的Transformer架构尽管卓越,但其自回归特性以及注意力机制在某些配置下的二次复杂度,导致其在推理时效率低下,这是众所周知的痛点。

郑纬民院士的研究成果与此直接相关。他在并行文件系统(如面向高性能计算的COS并行文件系统)和轻量级通信协议方面的工作,直指分布式推理中的两个关键瓶颈:I/O与节点间协同。服务于大语言模型(LLM)的现代推理集群常常受限于内存带宽,并在使用模型并行时遭受显著的通信开销。一个能够更高效地在加速器(GPU、NPU或定制ASIC)网络间流式传输模型参数和中间激活值的系统,可以大幅提升吞吐量。

吴永伟教授在计算机系统架构数据中心级资源管理方面的贡献,则暗示曲径科技将采取一种全局性、系统级的方法。其目标很可能是一个协同设计的全栈方案,涵盖:
1. 定制内核与运行时:针对常见推理模式(如融合注意力、优化的KV缓存管理)优化的底层算子,超越vLLM或TensorRT-LLM等现有框架。
2. 新颖模型架构:探索面向推理最优化的模型设计,可能超越纯Transformer架构。这可能涉及将像Mamba这样的状态空间模型(SSM)集成到混合系统中,此类模型提供次二次复杂度缩放和高效的循环推理。
3. 内存层次革命:重新定义模型权重的存储与移动方式。类似微软DeepSpeed-FastGen的技术已开创了连续批处理和分块KV缓存,但系统级重新设计可能涉及更紧密地集成非易失性内存(NVMe)或计算存储,以承载海量模型而无需频繁的GPU交换。

一个相关的开源基准是lm-evaluation-harness仓库(EleutherAI),它已成为评估LLM推理性能的标准工具。然而,大多数基准测试聚焦于准确性,而非系统效率。曲径科技的成功将由新指标衡量:每美元每秒Token数每焦耳Token数

| 推理解决方案 | 关键技术 | 理论峰值吞吐量 (Tokens/sec/A100) | 关键局限 |
|---|---|---|---|
| 原生PyTorch | 基础批处理 | 低 | GPU利用率差,内存占用高 |
| vLLM (v0.2.4) | PagedAttention,连续批处理 | 高 | 针对可变请求长度优化,但未与硬件协同设计 |
| TensorRT-LLM | 内核融合,量化,编译器优化 | 非常高 | 与NVIDIA硬件紧耦合,对新架构灵活性不足 |
| 曲径科技目标 | 系统级协同设计,新颖内存层次 | 极高(目标) | 需要全栈控制,采用门槛高 |

数据洞察:上表演示了从原生框架到复杂软件优化器的演进路径。曲径科技提出的系统级方法代表了下一个飞跃,但其成功取决于能否实现足够显著的性能提升,以克服现有由硬件厂商支持的软件生态的惯性。

关键玩家与案例研究

高效推理的竞赛已是一场多战线战争。NVIDIA凭借TensorRT-LLM和CUDA形成的软硬件锁定占据主导,但这刺激了竞争者寻求架构优势。

* Groq:采取了激进的硬件优先策略,其LPU(语言处理单元)是一种确定性的单核大规模SIMD架构。通过消除内存瓶颈,它在小模型上实现了惊人的原始Token生成速度,但其对于海量稀疏模型的灵活性和成本仍存疑问。
* SambaNova:专注于可重构数据流架构(使用SN40L芯片),可针对不同模型层进行动态优化,承诺在海量模型的训练和推理上均实现高效率。
* Cerebras:其晶圆级引擎(WSE-3)为单个模型完全消除了芯片间通信,使得巨型模型的推理变得直接,尽管硬件成本极高。
* 微软(Azure):重要的软件创新者,拥有包含推理优化(DeepSpeed-FastGen)的DeepSpeed。其与OpenAI的深度整合,使其对生产级推理负载有独特洞察。
* Together.ai、Replicate、Anyscale等初创公司:它们正在构建优化的软件平台和运行时(例如Together的推理引擎、Anyscale的Ray Serve),专注于降低开发者和企业使用大型模型的复杂性与成本。

延伸阅读

曲境科技ATaaS平台向GPU浪费宣战,以Token效率重构AI基础设施曲境科技正式推出AI Token即服务(ATaaS)平台,直指行业“算力堆砌即性能”的传统范式。该平台将标准化、高效率的Token生成作为服务出售,旨在将AI能力从硬件扩张中解耦,或将引发模型训练与推理的成本革命。十万卡云端竞速:阿里云自动驾驶AI基础设施如何重塑汽车研发自动驾驶的竞争前线已从道路转向云端。超过十万张自研AI加速卡在公有云平台上的里程碑式部署,标志着自动驾驶技术研发范式的深刻变革——从分散的硬件采购模式,转向垂直整合、云原生的AI基础设施新模型。百度数据超市:规模化具身智能缺失的基础设施百度智能云推出面向具身智能的“数据超市”,直指规模化、高质量机器人训练数据这一根本性挑战。该平台引入分层、可扩展的数据标注体系,旨在规范物理交互数据集的混乱现状,有望为构建商用机器人的企业大幅缩短开发周期并降低成本。KV缓存32倍内存需求剧变:存储系统从数据仓库跃升为核心基础设施AI基础设施正经历一场地震式变革。Transformer推理中曾不起眼的KV缓存,其内存带宽需求竟高达传统工作负载的32倍。这一前所未有的要求正迫使存储系统从被动的数据仓库,转变为计算关键路径上的主动参与者,重新定义行业经济与技术格局。

常见问题

这次公司发布“Qujing's Academic Coup Signals AI's Next Frontier: The High-Efficiency Inference Race”主要讲了什么?

The recruitment of Zheng Weimin and Wu Yongwei by Qujing Technology represents far more than a high-profile talent acquisition. It is a calculated strategic maneuver targeting the…

从“Qujing Technology AI inference cost reduction strategy”看,这家公司的这次发布为什么值得关注?

The core technical challenge Qujing aims to solve is the disproportionate cost and latency of the inference phase compared to training. While training a model like GPT-4 is a massive, one-time capital expenditure, infere…

围绕“Zheng Weimin Wu Yongwei Qujing research focus areas”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。