技术深潜
曲径科技旨在攻克的核心技术挑战,是推理阶段与训练阶段相比不成比例的高成本与高延迟。训练一个如GPT-4般的模型固然是一次性的大规模资本支出,但推理却是随着使用量线性增长的持续性运营成本。标准的Transformer架构尽管卓越,但其自回归特性以及注意力机制在某些配置下的二次复杂度,导致其在推理时效率低下,这是众所周知的痛点。
郑纬民院士的研究成果与此直接相关。他在并行文件系统(如面向高性能计算的COS并行文件系统)和轻量级通信协议方面的工作,直指分布式推理中的两个关键瓶颈:I/O与节点间协同。服务于大语言模型(LLM)的现代推理集群常常受限于内存带宽,并在使用模型并行时遭受显著的通信开销。一个能够更高效地在加速器(GPU、NPU或定制ASIC)网络间流式传输模型参数和中间激活值的系统,可以大幅提升吞吐量。
吴永伟教授在计算机系统架构和数据中心级资源管理方面的贡献,则暗示曲径科技将采取一种全局性、系统级的方法。其目标很可能是一个协同设计的全栈方案,涵盖:
1. 定制内核与运行时:针对常见推理模式(如融合注意力、优化的KV缓存管理)优化的底层算子,超越vLLM或TensorRT-LLM等现有框架。
2. 新颖模型架构:探索面向推理最优化的模型设计,可能超越纯Transformer架构。这可能涉及将像Mamba这样的状态空间模型(SSM)集成到混合系统中,此类模型提供次二次复杂度缩放和高效的循环推理。
3. 内存层次革命:重新定义模型权重的存储与移动方式。类似微软DeepSpeed-FastGen的技术已开创了连续批处理和分块KV缓存,但系统级重新设计可能涉及更紧密地集成非易失性内存(NVMe)或计算存储,以承载海量模型而无需频繁的GPU交换。
一个相关的开源基准是lm-evaluation-harness仓库(EleutherAI),它已成为评估LLM推理性能的标准工具。然而,大多数基准测试聚焦于准确性,而非系统效率。曲径科技的成功将由新指标衡量:每美元每秒Token数和每焦耳Token数。
| 推理解决方案 | 关键技术 | 理论峰值吞吐量 (Tokens/sec/A100) | 关键局限 |
|---|---|---|---|
| 原生PyTorch | 基础批处理 | 低 | GPU利用率差,内存占用高 |
| vLLM (v0.2.4) | PagedAttention,连续批处理 | 高 | 针对可变请求长度优化,但未与硬件协同设计 |
| TensorRT-LLM | 内核融合,量化,编译器优化 | 非常高 | 与NVIDIA硬件紧耦合,对新架构灵活性不足 |
| 曲径科技目标 | 系统级协同设计,新颖内存层次 | 极高(目标) | 需要全栈控制,采用门槛高 |
数据洞察:上表演示了从原生框架到复杂软件优化器的演进路径。曲径科技提出的系统级方法代表了下一个飞跃,但其成功取决于能否实现足够显著的性能提升,以克服现有由硬件厂商支持的软件生态的惯性。
关键玩家与案例研究
高效推理的竞赛已是一场多战线战争。NVIDIA凭借TensorRT-LLM和CUDA形成的软硬件锁定占据主导,但这刺激了竞争者寻求架构优势。
* Groq:采取了激进的硬件优先策略,其LPU(语言处理单元)是一种确定性的单核大规模SIMD架构。通过消除内存瓶颈,它在小模型上实现了惊人的原始Token生成速度,但其对于海量稀疏模型的灵活性和成本仍存疑问。
* SambaNova:专注于可重构数据流架构(使用SN40L芯片),可针对不同模型层进行动态优化,承诺在海量模型的训练和推理上均实现高效率。
* Cerebras:其晶圆级引擎(WSE-3)为单个模型完全消除了芯片间通信,使得巨型模型的推理变得直接,尽管硬件成本极高。
* 微软(Azure):重要的软件创新者,拥有包含推理优化(DeepSpeed-FastGen)的DeepSpeed。其与OpenAI的深度整合,使其对生产级推理负载有独特洞察。
* Together.ai、Replicate、Anyscale等初创公司:它们正在构建优化的软件平台和运行时(例如Together的推理引擎、Anyscale的Ray Serve),专注于降低开发者和企业使用大型模型的复杂性与成本。