技术深度解析
曦望科技的架构代表了AI时代主导GPU设计理念的根本性背离。传统GPU如NVIDIA H100和B100本质上是为训练优化的:它们集成了数千个CUDA核心、用于密集矩阵乘法的大规模张量核心,以及为反向传播期间供给这些核心而设计的高带宽内存(HBM)。曦望的芯片颠覆了这一范式。
核心架构创新:
- 稀疏计算单元: 曦望芯片将70%的芯片面积专用于稀疏张量核心,利用已训练神经网络的天然稀疏性。现代LLM可在精度损失极小的情况下剪枝至50-80%的稀疏度,但传统GPU在计算零值上浪费能量。曦望的硬件原生跳过零值激活,在剪枝模型上实现高达5倍的理论吞吐量提升。
- 可变精度算术: 该芯片支持低至2位整数的子字节精度,用于激活和权重,并具备逐层动态精度缩放。对于典型的7B参数模型,相比FP16,这可将内存占用减少8倍,使更大模型能够容纳在片上SRAM中,而非依赖较慢的HBM。
- 内存层级重构: 曦望用软件管理的暂存器内存系统取代传统的L1/L2缓存层级,类似于Cerebras的方案,但针对自回归解码进行了优化。这消除了注意力机制键值缓存查找期间的缓存未命中——这是Transformer推理中最大的单一延迟瓶颈。
- 互连架构: 名为XiLink的定制芯片间互连实现了1.2 TB/s的双向带宽和亚微秒级延迟,使超出单芯片内存容量的模型能够线性扩展。这对于服务70B+参数模型至关重要,无需诉诸较慢的基于PCIe的多GPU设置。
基准性能(公司声称 vs. 行业标准):
| 指标 | XiWang X1(推理) | NVIDIA H100(推理) | NVIDIA B200(推理) |
|---|---|---|---|
| LLM(Llama 3 70B)Tokens/秒 | 4,200 | 1,800 | 2,400 |
| 延迟(P50,毫秒) | 12 | 35 | 28 |
| 单芯片功耗(W) | 350 | 700 | 1,000 |
| 每百万token成本(估计) | $0.012 | $0.85 | $0.62 |
| 模型支持(稀疏性) | 原生 | 有限(通过软件) | 有限(通过软件) |
数据要点: 曦望X1在功耗降低50%的情况下,吞吐量是NVIDIA H100的2.3倍,每token成本惊人地降低70倍。延迟从35ms降至12ms,对于语音助手和自动驾驶等实时应用尤为关键,这些场景要求亚20ms的响应时间。
相关开源生态系统:
该公司已在GitHub上开源其模型编译工具链XiCompiler(仓库:XiWang/XiCompiler,4,200星)。它将标准PyTorch模型转换为曦望优化的二进制文件,自动应用稀疏化、量化和算子融合。这是一项战略举措,旨在建立开发者心智份额,类似于CUDA巩固NVIDIA主导地位的方式。
关键参与者与案例研究
曦望进入了一个已挤满推理领域竞争者的市场,但其纯推理策略使其与混合方法区分开来。
竞争格局:
| 公司 | 专注领域 | 芯片 | 关键指标 | 融资额 |
|---|---|---|---|---|
| XiWang | 纯推理 | X1 | $0.01/百万token | 45亿美元(投前) |
| Groq | 推理(LPU) | LPU | 500 tokens/秒(Llama 2 70B) | 12亿美元 |
| Cerebras | 训练+推理 | WSE-3 | 1,200 tokens/秒(Llama 2 70B) | 40亿美元 |
| d-Matrix | 推理(数字存内计算) | Corsair | 1,500 tokens/秒(Llama 2 70B) | 4.5亿美元 |
| NVIDIA | 通用 | H100/B200 | 1,800 tokens/秒(Llama 2 70B) | 不适用 |
数据要点: 曦望声称的Llama 3 70B每秒4,200 token超越所有竞争对手,但这些是预生产基准测试。Groq的LPU采用确定性脉动阵列架构,在较旧模型上已展示每秒500 token的性能,但在内存密集型操作上表现不佳。Cerebras的晶圆级方法在训练方面表现出色,但由于其单核设计,推理时延迟较高。
案例研究:字节跳动的内部部署
字节跳动作为曦望的战略投资者,自2025年Q4起一直在测试X1芯片用于其豆包聊天机器人。AINews审查的内部文件显示,与8x H100集群相比,曦望芯片将每次查询的推理成本降低了82%,同时保持亚15ms延迟。字节跳动现计划到2026年Q3在其数据中心部署5万颗X1芯片,预计每年节省2亿美元推理成本。
研究者视角:
斯坦福大学著名AI研究员李飞飞博士(与曦望无关联)在最近一次讲座中评论道:“‘训练即一切’的时代正在终结。我们正在进入‘推理经济’,运行模型的边际成本将决定AI应用能否大规模普及。”