商汤 AI 原生基础设施:重塑 LLM 时代的计算架构

AI 基础设施的演变已抵达一个关键的拐点,那些为通用工作负载构建的传统云计算模型,在面对训练和部署万亿参数模型的需求时,已显得捉襟见肘,难以胜任。商汤科技对其所谓"AI 计算基础设施"的方法,代表了一种刻意偏离增量式云优化的路径,不再满足于修修补补。相反,它体现了一种 AI 原生设计的哲学,即整个技术堆栈——从网络架构、存储系统到调度机制和软件层——都是从零开始架构的,充分考量了大型语言模型(LLM)训练、视频生成以及世界模型开发的具体特征。这一转变的核心特征在于超越单纯的"资源聚合",转向深度的"任务优化",让架构服务于算法特性。这意味着不再仅仅堆砌硬件,而是让软硬件协同深度耦合。商汤的策略表明,未来的竞争力将取决于垂直整合栈的深度,而非单纯的算力规模。这种原生设计旨在消除传统架构中的冗余,确保每一分算力都能转化为有效的模型训练进度,从而在激烈的 AI 竞赛中占据先机。此外,这种架构革新还预示着行业标准的潜在变化,即从通用的云计算服务向专用的 AI 工厂模式转型。通过解决通信 overhead 和数据加载瓶颈,商汤试图证明垂直整合的栈能够带来显著的总拥有成本(TCO)优势。这不仅是对现有技术的改良,更是对计算范式的一次根本性重新定义,为后续更复杂的 AI 应用奠定了坚实的底层基础。其核心创新在于

Technical Deep Dive

商汤科技所倡导的 AI 原生计算范式,其核心在于解决现代 AI 工作负载与遗留数据中心架构之间的根本性错配。传统集群通常将 GPU 视为通过标准 Ethernet 或 InfiniBand 网络连接的状态无关计算单元,并将存储作为独立的层级,这种设计源于通用计算时代。对于 LLM 训练而言,这种架构会导致严重的效率低下:模型参数、优化器状态和梯度必须在此层级结构中不断洗牌,导致巨大的通信开销,在配置不佳的系统中,昂贵的 GPU 超过 50% 的时间可能处于空闲状态,等待数据或同步信号。

商汤的架构似乎建立在几个关键原则之上,旨在彻底消除这些延迟源:

1. Unified High-Bandwidth Fabric: 摆脱传统的分层网络架构,系统可能采用扁平、低延迟、高带宽的互连技术(可能是自定义或重度优化的实现,如 NVIDIA 的 NVLink 或 AMD 的 Infinity Fabric),将数千个 GPU 视为单一、连贯的计算表面。这种设计减少了模型并行中常见的全对全(all-to-all)通信模式的惩罚,确保数据在计算单元间的流动如同在片上内存一样高效。
2. Compute-Storage-Data Convergence: 架构可能将高性能分布式存储(如 Lustre 或 Ceph)直接集成到计算 Fabric 中,而非独立的存储阵列,并具备智能数据 staging 和预取功能。对于海量数据集的训练,在 GPU 需要之前将正确的数据块准备好本地缓冲存储至关重要,这能避免计算单元因 IO 等待而停滞。像开源项目 AIStore(用于 AI 数据的可扩展对象存储)和 WebDataset(大规模数据集存储和流式传输的标准)等项目 exemplify 了行业在此方向上的举措,尽管完全集成的硬件 - 软件解决方案将走得更远,实现真正的存算一体。
3. Workload-Aware Scheduling & Orchestration: 超越 Kubernetes,AI 原生调度器必须理解神经网络的图结构,而不仅仅是容器状态。它需要共置通信的模型分区,管理 checkpointing 以最小化停机时间,并在发生故障时动态重新配置资源而无需重启整个作业。虽然未公开细节,但商汤的系统需要一个将数月训练作业视为一等实体,而不仅仅是一批容器的调度器,以应对长周期训练中的不确定性。

一个说明软件挑战的相关开源项目是 Microsoft 的 DeepSpeed,这是一个深度学习优化库。其 Zero Redundancy Optimizer (ZeRO) 跨 GPU staged 模型状态以消除内存冗余,其 3D 并行性自动化了模型在数据、张量和流水线维度上的拆分。AI 原生硬件集群的设计将使此类软件技术以接近理论峰值效率运行,释放软件优化的全部潜力。

| Architecture Aspect | Traditional Cloud Cluster | AI-Native Cluster (Projected) | Performance Impact |
|---|---|---|---|
| Network Topology | Hierarchical (Spine-Leaf) | Flat, Hyper-Scale Fabric (e.g., Dragonfly+) | Reduces all-to-all latency by 70-90% |
| Storage Access | Network-Attached Storage (NAS/SAN) | Compute-Attached Memory & NVMe Pools | Cuts data loading bottlenecks, increases GPU utilization >85% |
| Job Scheduling | Container/VM-centric (Kubernetes) | Workflow & Model-Graph Aware | Reduces job start-up time and improves fault tolerance |
| Memory Hierarchy | Discrete GPU Memory + Host RAM | Unified Virtual Memory Space across GPUs | Enables larger model training without complex partitioning |

Data Takeaway: 预计的 AI 原生集群规格凸显了针对分布式训练特定痛点的系统性重新设计。从分层网络到扁平网络以及集成存储的转变,直接攻击了延迟的两大最大来源,承诺在整体硬件利用率和作业完成时间方面实现阶跃式的改进。这不仅仅是参数的提升,而是架构逻辑的根本变革。

Key Players & Case Studies

定义 AI 原生基础设施的竞赛并非单打独斗。必须在全球竞争格局中看待商汤的举措,其中 hyperscalers 和芯片设计师正在追求相似但往往 divergent 的路径。

* SenseTime: 定位为集成 AI 公司(模型 + 基础设施),其战略是创建垂直优化的堆栈。'Large AI Device' 既是其自身研究(在视频生成、具身 AI 和大型多模态模型领域)的竞争性护城河,也是潜在的商业服务。其成功取决于证明其集成方法相比从其他供应商组装最佳组件,能够交付有形的总拥有成本(TCO)优势。
* NVIDIA: 现任硬件之王正在通过 DGX SuperPOD 参考架构和 NVIDIA AI Enterprise 软件套件推动其自己的全栈愿景。NVIDIA 的方法是提供蓝图和核心组件(GPUs, NVSwitch, CUDA, AI software)供合作伙伴构建 AI 工厂。其优势在于生态系统锁定

常见问题

这次公司发布“SenseTime's AI-Native Infrastructure Redefines Compute Architecture for the LLM Era”主要讲了什么?

The evolution of AI infrastructure has reached an inflection point where traditional cloud computing models, built for general-purpose workloads, are proving inadequate for the dem…

从“SenseTime AI computing infrastructure vs NVIDIA DGX”看,这家公司的这次发布为什么值得关注?

At its core, the AI-native compute paradigm championed by SenseTime addresses the fundamental mismatch between modern AI workloads and legacy data center architecture. Traditional clusters treat GPUs as stateless compute…

围绕“cost of training LLM on SenseTime cluster”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。