技术深度解析
Rebellions的技术理念,其核心在于挑战使用GPU进行AI推理所固有的架构妥协。GPU本是为大规模并行、浮点计算密集的图形和科学计算而设计的处理器,将其用于AI推理这一独特工作负载,虽灵活却并非最优。这种灵活性伴随着功耗、芯片面积和内存带宽分配方面的开销,对于推理任务而言是次优选择。
根据其已公开的专利和技术演示,Rebellions的架构围绕以数据流为中心的设计展开。与GPU的SIMD(单指令多数据)架构(需要为数千个核心取指和解码指令)不同,数据流架构将计算组织成功能单元构成的图。数据令牌流经这个预先配置好的图,到达即触发计算。这消除了大量的指令取指/解码开销,减少了控制逻辑,从而为固定的、已知的计算图(这正是已部署AI模型的表现形式)带来了卓越的能效。
其一项关键创新是专注于低精度数值格式。训练需要高精度的FP32或BF16来保持梯度稳定性,而推理通常可以使用INT8、INT4甚至二进制/三元权重来完成,且精度损失最小。Rebellions的芯片配备了专门为这些低精度操作进行激进优化的张量核心,显著提高了每瓦特每秒的操作次数。其内存层次结构也针对推理模式进行了定制,具有大型片上SRAM缓存,以最小化昂贵的片外DRAM访问,而后者是延迟和功耗的主要来源。
从软件角度看,该公司开发了自己的编译器堆栈ATOM。该编译器的任务是从PyTorch和TensorFlow等标准框架中获取模型,并将其最优地映射到芯片的数据流结构上。它执行针对硬件的先进图优化、层融合和内存调度。可以说,该编译器的成功比硅芯片本身更为关键;糟糕的软件会让出色的硬件变得无法使用。
虽然Rebellions的内部基准测试数据是保密的,但竞争格局提供了参考背景。与推理模式下的GPU相比,来自Groq(及其LPU)和Tenstorrent等公司的专用推理加速器,已在特定模型类型上展示了数量级的延迟和吞吐量优势。
| 芯片/平台 | 架构类型 | 关键推理优化 | 宣称的延迟优势(对比A100) | 目标精度 |
|---|---|---|---|---|
| 英伟达 A100 | 通用图形处理器(GPGPU) | 张量核心,MIG | 基线 | FP16, BF16, INT8 |
| 英伟达 H200 | GPGPU(下一代) | HBM3e,Transformer引擎 | ~1.5-2倍(预估) | FP8,新格式 |
| Groq LPU | 确定性数据流 | 单核简洁性,无DRAM瓶颈 | ~10倍(针对自回归LLM) | FP16, INT8 |
| Rebellions Atom(预估) | 数据流ASIC | 定制低精度核心,片上内存 | 5-10倍(根据白皮书预测) | INT8, INT4, FP8 |
| AWS Inferentia2 | ASIC(NeuronCore) | 大型SRAM,多核心 | ~3倍(针对支持的模型) | BF16, FP16, INT8 |
数据要点: 上表揭示了一个清晰趋势:专用推理ASIC的架构设计旨在利用推理所需的更低精度和可预测数据流,目标是在能效上实现相对于通用GPU的3倍到10倍提升。向INT4/FP8的迈进,突显了行业对榨干每瓦特性能的极致追求。
关键参与者与案例研究
AI推理的竞争领域正在迅速细分。Rebellions并非在真空中运作,它是一批从不同角度攻克该问题的公司中的一员。
incumbent:英伟达 仍是这个领域的巨无霸。其战略是将GPU演变为全能AI超级芯片。最近的Blackwell架构(B200)引入了专用的Transformer引擎并支持FP4精度,明确针对推理效率。英伟达不可动摇的优势在于CUDA及其全栈软件生态系统(CUDA、cuDNN、Triton Inference Server)。对于大多数企业而言,尽管成本可能更高,但阻力最小的路径仍然是直接使用英伟达进行推理。
云超大规模企业: 亚马逊(AWS Inferentia/Trainium)、谷歌(TPU)和微软(Azure Maia)正在开发主要用于内部使用和云租赁的自定义芯片。AWS Inferentia2是Rebellions产品的直接竞争对手,在AWS上提供高吞吐量、低成本的推理服务。这种垂直整合带来了双重挑战:它们既是潜在客户(为其数据中心购买芯片),也是潜在竞争对手(在其自研芯片上提供推理即服务)。
纯挑战者: 这一类别包括Rebellions、Groq、Tenstorrent和Cerebras等公司。它们没有历史包袱,专注于从头构建针对特定AI工作负载(通常是推理)的最佳架构。它们的优势在于能够进行激进的架构创新,但挑战在于建立软件生态和获得大规模采用。Groq以其极低延迟的LPU在LLM推理领域声名鹊起;Tenstorrent则采用可扩展的分布式数据流架构。Rebellions凭借其专注于低精度和高效数据流的设计,以及此次巨额融资,正强势加入这场角逐。