技术深度解析
像安诺其设想的这类算力租赁业务,其核心技术操作在概念上看似简单,执行却异常复杂。它围绕着异构GPU资源的高效编排展开。典型的架构栈包括:
1. 硬件层:采购英伟达H100/H200 GPU,或鉴于出口限制,选择中国替代方案如壁仞科技的BR100或摩尔线程的MTT S4000。这些GPU被安装在配备高速网络(InfiniBand或以太网)的标准服务器机架中。
2. 虚拟化与编排层:这是关键的技术护城河。使用如 Run:AI 或开源平台如 Kubernetes原生设备插件(k8s-device-plugin) 和 NVIDIA GPU Operator 等软件,将物理GPU切割成虚拟实例。更高级的编排则由诸如 Determined AI 开源平台(GitHub: `determined-ai/determined`, ~2.5k stars)等项目提供,用于管理跨集群的分布式训练工作负载。
3. 调度与分配层:定制调度器必须将用户任务(例如,一个需要8块A100 GPU运行48小时的请求)与物理集群中可用的GPU碎片进行匹配,优化利用率并最小化碎片。这类似于云虚拟机调度,但增加了GPU显存和NVLink拓扑约束的复杂性。
4. 监控与计费层:使用 DCGM(数据中心GPU管理器) 和 Grafana 仪表盘等工具追踪GPU利用率、温度和功耗。这些数据输入计量系统,用于按GPU时计费。
安诺其面临的主要技术挑战,并非发明这套技术栈,而是以可与云提供商竞争的可靠性和效率来大规模运营它。其附加值(如果存在的话)必须来自能实现更高集群利用率(例如,达到70%以上,而云提供商类似Spot实例的利用率为60%)的优越调度算法,或是来自对特定硬件的获取能力。
| 技术能力 | 超大规模云厂商(如阿里云) | 专业AI云服务商(如Lambda Labs) | 安诺其的预设起点 |
|----------------------|----------------------------------------------------|----------------------------------------------|------------------------------------------|
| 硬件多样性 | 广泛(CPU、GPU、TPU、定制ASIC) | 深度聚焦最新英伟达/AMD GPU | 限于1-2种GPU类型(H100、A800) |
| 编排软件 | 自研,与云生态深度集成 | 精选开源软件 + 自研层 | 可能依赖基础开源方案(K8s、Run:AI) |
| 网络架构 | 定制高性能RDMA网络 | 优化的InfiniBand集群 | 标准商用InfiniBand/以太网 |
| 多租户隔离 | 硬件级(英伟达MIG、AMD MxGPU) | 通过虚拟化实现强隔离 | 基础,存在‘吵闹邻居’风险 |
| 平均集群利用率 | 60-75%(预估) | 65-80%(预估) | 初期<50%(预计) |
数据启示:上表揭示了安诺其固有的技术劣势。在没有自研编排软件或差异化硬件的情况下,它只能依靠价格和可用性竞争,这是一个不稳固的定位。低初始利用率直接威胁盈利能力,因为闲置GPU的资本成本极其高昂。
关键参与者与案例分析
AI算力市场是分层的。顶层是超大规模云提供商(AWS、Google Cloud、Microsoft Azure、阿里云),它们将算力作为庞大服务组合中的一项来提供。它们在全球规模、与托管AI服务(如SageMaker或Vertex AI)的集成以及弹性基础设施方面展开竞争。
第二梯队由纯粹的AI算力专业服务商构成。其中包括:
* Lambda Labs:美国市场的领导者,销售GPU工作站、服务器和云实例。其在2024年获得了3.2亿美元融资,凸显了投资者对专业模式的信心。Lambda的成功与为AI研究人员提供的深度技术支持和优化技术栈紧密相关。
* CoreWeave:最初是一家加密货币挖矿运营商,后转型为GPU云服务商,并成为英伟达的优先合作伙伴。其2023年23亿美元的债务融资轮次突显了该模式的资本密集度。CoreWeave的案例对安诺其尤其具有指导意义——它展示了一个从非AI背景成功转型的例子,但其成功建立在早期与英伟达的深厚关系以及大规模管理高密度、高耗能硬件的专业知识之上。
* Vast.ai:运营一个去中心化的GPU租赁市场,连接个人GPU所有者与用户。它代表了‘中介’模式的极端形态,安诺其可能与之类似,但不拥有底层资产。
在中国,市场参与者包括壁仞科技和燧原科技,它们提供部分基于自家国产GPU的算力云服务,将芯片设计与基础设施服务相结合。
安诺其的模式最接近于CoreWeave重资产模式与Vast.ai中介模式的混合体,但却缺乏CoreWeave的技术渊源或Vast.ai的平台网络效应。