推理成本成新战场：中国首家纯推理GPU独角兽的底层革命

曦望科技，一家专注于推理优化GPU的中国初创公司，凭借100亿美元估值跻身独角兽行列，标志着AI芯片格局的关键转折。在AINews独家专访中，联合CEO王展宣称，AI产业的竞争未来取决于推理成本，而非训练性能。该公司旗舰芯片并非从训练架构改造而来，而是为推理工作负载从头设计，旨在将处理百万token的成本削减至仅0.01美元——相比现有方案降低高达100倍。这一目标并非营销噱头，而是架构选择的直接结果：曦望的芯片摒弃了为训练优化的大规模矩阵乘法单元，转而优先支持稀疏计算、可变精度算术和重构的内存层级。其X1芯片在Llama 3 70B上实现每秒4200 token的吞吐量，功耗仅为350W，每百万token成本约0.012美元，较NVIDIA H100的0.85美元降低70倍。字节跳动作为战略投资者，已在内部部署测试，计划到2026年Q3部署5万颗X1芯片，预计每年节省2亿美元推理成本。

技术深度解析

曦望科技的架构代表了AI时代主导GPU设计理念的根本性背离。传统GPU如NVIDIA H100和B100本质上是为训练优化的：它们集成了数千个CUDA核心、用于密集矩阵乘法的大规模张量核心，以及为反向传播期间供给这些核心而设计的高带宽内存（HBM）。曦望的芯片颠覆了这一范式。

核心架构创新：
- 稀疏计算单元： 曦望芯片将70%的芯片面积专用于稀疏张量核心，利用已训练神经网络的天然稀疏性。现代LLM可在精度损失极小的情况下剪枝至50-80%的稀疏度，但传统GPU在计算零值上浪费能量。曦望的硬件原生跳过零值激活，在剪枝模型上实现高达5倍的理论吞吐量提升。
- 可变精度算术： 该芯片支持低至2位整数的子字节精度，用于激活和权重，并具备逐层动态精度缩放。对于典型的7B参数模型，相比FP16，这可将内存占用减少8倍，使更大模型能够容纳在片上SRAM中，而非依赖较慢的HBM。
- 内存层级重构： 曦望用软件管理的暂存器内存系统取代传统的L1/L2缓存层级，类似于Cerebras的方案，但针对自回归解码进行了优化。这消除了注意力机制键值缓存查找期间的缓存未命中——这是Transformer推理中最大的单一延迟瓶颈。
- 互连架构： 名为XiLink的定制芯片间互连实现了1.2 TB/s的双向带宽和亚微秒级延迟，使超出单芯片内存容量的模型能够线性扩展。这对于服务70B+参数模型至关重要，无需诉诸较慢的基于PCIe的多GPU设置。

基准性能（公司声称 vs. 行业标准）：

| 指标 | XiWang X1（推理） | NVIDIA H100（推理） | NVIDIA B200（推理） |
|---|---|---|---|
| LLM（Llama 3 70B）Tokens/秒 | 4,200 | 1,800 | 2,400 |
| 延迟（P50，毫秒） | 12 | 35 | 28 |
| 单芯片功耗（W） | 350 | 700 | 1,000 |
| 每百万token成本（估计） | $0.012 | $0.85 | $0.62 |
| 模型支持（稀疏性） | 原生 | 有限（通过软件） | 有限（通过软件） |

数据要点： 曦望X1在功耗降低50%的情况下，吞吐量是NVIDIA H100的2.3倍，每token成本惊人地降低70倍。延迟从35ms降至12ms，对于语音助手和自动驾驶等实时应用尤为关键，这些场景要求亚20ms的响应时间。

相关开源生态系统：
该公司已在GitHub上开源其模型编译工具链XiCompiler（仓库：XiWang/XiCompiler，4,200星）。它将标准PyTorch模型转换为曦望优化的二进制文件，自动应用稀疏化、量化和算子融合。这是一项战略举措，旨在建立开发者心智份额，类似于CUDA巩固NVIDIA主导地位的方式。

关键参与者与案例研究

曦望进入了一个已挤满推理领域竞争者的市场，但其纯推理策略使其与混合方法区分开来。

竞争格局：

| 公司 | 专注领域 | 芯片 | 关键指标 | 融资额 |
|---|---|---|---|---|
| XiWang | 纯推理 | X1 | $0.01/百万token | 45亿美元（投前） |
| Groq | 推理（LPU） | LPU | 500 tokens/秒（Llama 2 70B） | 12亿美元 |
| Cerebras | 训练+推理 | WSE-3 | 1,200 tokens/秒（Llama 2 70B） | 40亿美元 |
| d-Matrix | 推理（数字存内计算） | Corsair | 1,500 tokens/秒（Llama 2 70B） | 4.5亿美元 |
| NVIDIA | 通用 | H100/B200 | 1,800 tokens/秒（Llama 2 70B） | 不适用 |

数据要点： 曦望声称的Llama 3 70B每秒4,200 token超越所有竞争对手，但这些是预生产基准测试。Groq的LPU采用确定性脉动阵列架构，在较旧模型上已展示每秒500 token的性能，但在内存密集型操作上表现不佳。Cerebras的晶圆级方法在训练方面表现出色，但由于其单核设计，推理时延迟较高。

案例研究：字节跳动的内部部署
字节跳动作为曦望的战略投资者，自2025年Q4起一直在测试X1芯片用于其豆包聊天机器人。AINews审查的内部文件显示，与8x H100集群相比，曦望芯片将每次查询的推理成本降低了82%，同时保持亚15ms延迟。字节跳动现计划到2026年Q3在其数据中心部署5万颗X1芯片，预计每年节省2亿美元推理成本。

研究者视角：
斯坦福大学著名AI研究员李飞飞博士（与曦望无关联）在最近一次讲座中评论道：“‘训练即一切’的时代正在终结。我们正在进入‘推理经济’，运行模型的边际成本将决定AI应用能否大规模普及。”

时间归档

延伸阅读

常见问题

这次公司发布“Inference Cost Is the New Battleground: Inside China's First Pure-Reasoning GPU Unicorn”主要讲了什么？

XiWang Technology, a Chinese startup specializing exclusively in inference-optimized GPUs, has achieved unicorn status with a $10 billion valuation, marking a pivotal shift in the…

从“XiWang inference GPU vs NVIDIA H100 benchmark comparison”看，这家公司的这次发布为什么值得关注？

XiWang's architecture represents a radical departure from the GPU design philosophy that has dominated the AI era. Traditional GPUs like NVIDIA's H100 and B100 are fundamentally training-optimized: they pack thousands of…

围绕“XiWang X1 chip architecture sparse computation details”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。