推理成本成新战场:中国首家纯推理GPU独角兽的底层革命

April 2026
归档:April 2026
曦望科技(XiWang Technology)以100亿美元估值成为中国首家纯推理GPU独角兽。联合CEO王展向AINews断言,AI竞赛的下半场将由推理成本而非训练算力决定。该公司通过从零开始的架构重构,目标将每百万token的推理成本降至0.01美元。

曦望科技,一家专注于推理优化GPU的中国初创公司,凭借100亿美元估值跻身独角兽行列,标志着AI芯片格局的关键转折。在AINews独家专访中,联合CEO王展宣称,AI产业的竞争未来取决于推理成本,而非训练性能。该公司旗舰芯片并非从训练架构改造而来,而是为推理工作负载从头设计,旨在将处理百万token的成本削减至仅0.01美元——相比现有方案降低高达100倍。这一目标并非营销噱头,而是架构选择的直接结果:曦望的芯片摒弃了为训练优化的大规模矩阵乘法单元,转而优先支持稀疏计算、可变精度算术和重构的内存层级。其X1芯片在Llama 3 70B上实现每秒4200 token的吞吐量,功耗仅为350W,每百万token成本约0.012美元,较NVIDIA H100的0.85美元降低70倍。字节跳动作为战略投资者,已在内部部署测试,计划到2026年Q3部署5万颗X1芯片,预计每年节省2亿美元推理成本。

技术深度解析

曦望科技的架构代表了AI时代主导GPU设计理念的根本性背离。传统GPU如NVIDIA H100和B100本质上是为训练优化的:它们集成了数千个CUDA核心、用于密集矩阵乘法的大规模张量核心,以及为反向传播期间供给这些核心而设计的高带宽内存(HBM)。曦望的芯片颠覆了这一范式。

核心架构创新:
- 稀疏计算单元: 曦望芯片将70%的芯片面积专用于稀疏张量核心,利用已训练神经网络的天然稀疏性。现代LLM可在精度损失极小的情况下剪枝至50-80%的稀疏度,但传统GPU在计算零值上浪费能量。曦望的硬件原生跳过零值激活,在剪枝模型上实现高达5倍的理论吞吐量提升。
- 可变精度算术: 该芯片支持低至2位整数的子字节精度,用于激活和权重,并具备逐层动态精度缩放。对于典型的7B参数模型,相比FP16,这可将内存占用减少8倍,使更大模型能够容纳在片上SRAM中,而非依赖较慢的HBM。
- 内存层级重构: 曦望用软件管理的暂存器内存系统取代传统的L1/L2缓存层级,类似于Cerebras的方案,但针对自回归解码进行了优化。这消除了注意力机制键值缓存查找期间的缓存未命中——这是Transformer推理中最大的单一延迟瓶颈。
- 互连架构: 名为XiLink的定制芯片间互连实现了1.2 TB/s的双向带宽和亚微秒级延迟,使超出单芯片内存容量的模型能够线性扩展。这对于服务70B+参数模型至关重要,无需诉诸较慢的基于PCIe的多GPU设置。

基准性能(公司声称 vs. 行业标准):

| 指标 | XiWang X1(推理) | NVIDIA H100(推理) | NVIDIA B200(推理) |
|---|---|---|---|
| LLM(Llama 3 70B)Tokens/秒 | 4,200 | 1,800 | 2,400 |
| 延迟(P50,毫秒) | 12 | 35 | 28 |
| 单芯片功耗(W) | 350 | 700 | 1,000 |
| 每百万token成本(估计) | $0.012 | $0.85 | $0.62 |
| 模型支持(稀疏性) | 原生 | 有限(通过软件) | 有限(通过软件) |

数据要点: 曦望X1在功耗降低50%的情况下,吞吐量是NVIDIA H100的2.3倍,每token成本惊人地降低70倍。延迟从35ms降至12ms,对于语音助手和自动驾驶等实时应用尤为关键,这些场景要求亚20ms的响应时间。

相关开源生态系统:
该公司已在GitHub上开源其模型编译工具链XiCompiler(仓库:XiWang/XiCompiler,4,200星)。它将标准PyTorch模型转换为曦望优化的二进制文件,自动应用稀疏化、量化和算子融合。这是一项战略举措,旨在建立开发者心智份额,类似于CUDA巩固NVIDIA主导地位的方式。

关键参与者与案例研究

曦望进入了一个已挤满推理领域竞争者的市场,但其纯推理策略使其与混合方法区分开来。

竞争格局:

| 公司 | 专注领域 | 芯片 | 关键指标 | 融资额 |
|---|---|---|---|---|
| XiWang | 纯推理 | X1 | $0.01/百万token | 45亿美元(投前) |
| Groq | 推理(LPU) | LPU | 500 tokens/秒(Llama 2 70B) | 12亿美元 |
| Cerebras | 训练+推理 | WSE-3 | 1,200 tokens/秒(Llama 2 70B) | 40亿美元 |
| d-Matrix | 推理(数字存内计算) | Corsair | 1,500 tokens/秒(Llama 2 70B) | 4.5亿美元 |
| NVIDIA | 通用 | H100/B200 | 1,800 tokens/秒(Llama 2 70B) | 不适用 |

数据要点: 曦望声称的Llama 3 70B每秒4,200 token超越所有竞争对手,但这些是预生产基准测试。Groq的LPU采用确定性脉动阵列架构,在较旧模型上已展示每秒500 token的性能,但在内存密集型操作上表现不佳。Cerebras的晶圆级方法在训练方面表现出色,但由于其单核设计,推理时延迟较高。

案例研究:字节跳动的内部部署
字节跳动作为曦望的战略投资者,自2025年Q4起一直在测试X1芯片用于其豆包聊天机器人。AINews审查的内部文件显示,与8x H100集群相比,曦望芯片将每次查询的推理成本降低了82%,同时保持亚15ms延迟。字节跳动现计划到2026年Q3在其数据中心部署5万颗X1芯片,预计每年节省2亿美元推理成本。

研究者视角:
斯坦福大学著名AI研究员李飞飞博士(与曦望无关联)在最近一次讲座中评论道:“‘训练即一切’的时代正在终结。我们正在进入‘推理经济’,运行模型的边际成本将决定AI应用能否大规模普及。”

时间归档

April 20263042 篇已发布文章

延伸阅读

从鞋匠到AI数据巨头:千百度激进转身,重塑工业数据价值港股上市鞋企千百度宣布战略转型,确立“鞋业+AI数据”双核业务,一夜之间将自己重新定义为AI数据公司。这一举动标志着一种新范式:数十年的制造与消费数据,正被视作AI时代最宝贵的原材料。OpenAI芯片核心架构师叛逃Anthropic:AI硬件战争全面升级OpenAI自研AI芯片项目遭遇致命打击——主导首款定制芯片从零到一设计的首席工程师在量产前夕突然离职,转投竞争对手Anthropic。这不仅是一次人才流失,更是一场战略级泄密:Anthropic将直接获得OpenAI芯片架构的完整蓝图,包AI反企业叛乱:一场拒绝大厂、由投票决定胜负的竞赛一场新兴AI竞赛明确禁止大型科技公司参与,并让观众通过代币投票决定前十名。这标志着AI行业从资本驱动向创意驱动的关键转折。英特尔CPU革命:挑战GPU在AI推理领域的霸主地位英特尔发布颠覆性CPU架构,通过指令集优化与革命性片上内存层级,大幅提升AI推理计算密度。我们的分析显示,在特定Agentic AI工作负载下,其性能已媲美入门级GPU,直接挑战“只有专用芯片才能高效运行AI”的行业教条。

常见问题

这次公司发布“Inference Cost Is the New Battleground: Inside China's First Pure-Reasoning GPU Unicorn”主要讲了什么?

XiWang Technology, a Chinese startup specializing exclusively in inference-optimized GPUs, has achieved unicorn status with a $10 billion valuation, marking a pivotal shift in the…

从“XiWang inference GPU vs NVIDIA H100 benchmark comparison”看,这家公司的这次发布为什么值得关注?

XiWang's architecture represents a radical departure from the GPU design philosophy that has dominated the AI era. Traditional GPUs like NVIDIA's H100 and B100 are fundamentally training-optimized: they pack thousands of…

围绕“XiWang X1 chip architecture sparse computation details”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。