曦智科技百亿豪赌:专用推理芯片如何重塑中国AI硬件竞赛格局

April 2026
inference optimization归档:April 2026
中国AI芯片初创公司曦智科技(Sunrise)近日完成超百亿元人民币(约14亿美元)新一轮融资,成为中国首家纯推理GPU独角兽。这笔巨额投资标志着行业正发生根本性转向——在AI智能体与实时应用爆发式增长的驱动下,计算重心正从训练专用硬件向推理优化硬件迁移。

曦智科技本轮融资的公布,远不止是中国半导体行业又一次资本注入,它标志着全球AI硬件竞赛进入了一个战略性拐点。随着行业迈入许多人所谓的“AI智能体元年”,计算瓶颈已从模型训练决定性转向模型推理。此前资本涌向大规模训练集群,而曦智的成功表明,投资者如今已认识到推理效率是AI实际部署的关键制约因素。

曦智科技的核心策略是全栈垂直整合,同时开发S系列推理GPU硬件及配套软件生态。其已投入量产的S2芯片,据称在特定推理任务上能效比表现突出。但真正引发行业关注的是其即将发布的S3架构,该架构专为Transformer类模型的实时推理而设计,采用了异构张量核心、确定性执行流水线等创新技术。公司联合创始人兼CEO在近期采访中透露,S3在运行700亿参数大语言模型时,每秒可生成85个token,同时功耗控制在250瓦。

这一进展的背景是,中国科技巨头和云服务提供商正面临日益严峻的推理算力需求。无论是阿里巴巴的“通义千问”、百度的“文心一言”,还是层出不穷的行业AI应用,都对低延迟、高并发的推理服务提出了极高要求。传统的通用GPU在应对这类负载时,往往因架构冗余而能效不佳。曦智的专用推理芯片路径,正是瞄准了这一市场空白。

投资方阵容包括多家国有背景的产业基金和顶级风投,这既反映了国家在半导体自主可控上的战略决心,也体现了市场对AI推理赛道商业潜力的认可。分析师指出,曦智的崛起可能催生一个专注于推理的独立芯片细分市场,与训练芯片市场并行发展,从而改变目前由英伟达主导的单一硬件生态格局。

技术深度解析

曦智科技的架构理念代表了对推理时代GPU设计的根本性重新思考。与必须处理从科学计算到图形渲染等多种工作负载的通用GPU不同,S系列芯片专门针对基于Transformer的推理的数学模式进行了优化。

近期技术披露中详述的S3架构采用了多项创新方法。首先,它采用了异构张量核心设计,拥有针对不同精度格式优化的独立单元:INT4/INT8用于权重-激活运算,FP16用于注意力评分,以及一种新颖的BF12格式用于中间激活,在精度与内存带宽效率之间取得平衡。这与英伟达H100在整个芯片上使用统一的FP8/FP16张量核心形成对比。

其次,曦智实现了他们称之为 “确定性执行流水线” 的硬件调度逻辑,保证关键推理操作在最坏情况下的延迟上限。这是通过专用的片上SRAM(S3为96MB,S2为50MB)实现的,这些SRAM以分层缓存结构组织,最大限度地减少了KV缓存读取等常见推理模式对DRAM的访问。

第三,S3在硬件层面引入了推测解码加速。随着AI智能体越来越多地使用思维链推理,该芯片包含了专用单元,可以并行执行多个可能的token序列,然后选择最优路径——根据内部基准测试,这能将复杂智能体工作流的延迟降低高达40%。

一个关键的差异化因素是曦智的软件栈 InferLink。与CUDA的通用方法不同,InferLink为常见的推理模式提供了高级API:

```python
# 用于智能体部署的InferLink API示例
agent_engine = sunrise.AgentRuntime(
model="llama-3-70b",
speculative_decoding=True,
kv_cache_optimization="dynamic",
latency_sla=100ms
)
```

其生态系统的开源组件 Sunrise-MLIR(在GitHub上提供,sunrise-compiler/mlir-opt,2.3k stars)专门为推理图提供编译器优化。最近的提交显示,在针对Transformer块的自动算子融合以及兼顾延迟要求和吞吐量优化的动态批处理算法方面取得了进展。

| 指标 | 曦智 S3 | 英伟达 L4 | 英伟达 H20 | Habana Gaudi2 |
|------------------|-------------|---------------|----------------|-------------------|
| INT8 TOPS | 1,200 | 242 | 740 | 1,800 |
| FP16 TFLOPS | 600 | 31.3 | 148 | 900 |
| 内存带宽 | 1.2 TB/s | 300 GB/s | 4.8 TB/s | 2.45 TB/s |
| TDP | 250W | 72W | 400W | 600W |
| Tokens/sec (70B LLM) | 85 | 18 | 42 | 95 |
| 能效 (性能/瓦特) | 0.34 tokens/J | 0.25 tokens/J | 0.105 tokens/J | 0.158 tokens/J |

数据要点: S3在推理的能效(每瓦性能)上显示出明确的专业化优势,比英伟达L4效率高36%,比H20高3.2倍。然而,它在通用计算能力和内存带宽方面与H20进行了权衡,突显了该架构专注优化的特点。

主要参与者与案例研究

推理芯片领域已从通用GPU主导的单一市场,迅速演变为拥有多种专业化方法的碎片化生态系统。曦智科技正在一个日益拥挤但具有重要战略意义的细分市场中竞争。

英伟达 凭借其推理优化的L4和L40S GPU,以及中国特供版H20,仍然是市场上的巨无霸。他们的优势在于CUDA成熟的生态系统以及提供统一训练/推理平台的能力。然而,其通用架构不可避免地带有专用设计可以避免的开销。

AMD 凭借MI300X取得了重大进展,该芯片提供了对大模型推理至关重要的卓越内存带宽(5.2TB/s)。他们的ROCm软件栈,虽然历史上落后于CUDA,但在过去一年中在Transformer优化方面显示出显著改进。

初创公司竞争对手: 多家中国初创公司正在追求类似的专精化策略。燧原科技(Iluvatar CoreX) 专注于其GCU芯片的图神经网络推理,而燧原科技(Enflame) 则采用了不同的方法,其DTU系列使用小芯片技术实现可扩展性。曦智的与众不同之处在于其纯推理的专注——其他公司仍保留一定的训练能力,而曦智则完全取消了训练专用硬件,以最大化推理效率。

云厂商ASIC: 阿里巴巴的含光800、百度的昆仑和腾讯的紫霄代表了垂直整合模式。这些芯片专门针对其母公司的推理工作负载进行了优化,但缺乏曦智方法的普遍适用性。曦智的赌注是,一个横向的、与供应商无关的推理平台将能够捕获更广泛的企业市场,这些企业不希望被锁定在单一的云生态系统中。

相关专题

inference optimization13 篇相关文章

时间归档

April 20261840 篇已发布文章

延伸阅读

中国AI基础设施革命:构建超高效「令牌工厂」AI产业正经历从模型训练到推理优化的根本性范式转移,令牌消耗正以前所未有的速度增长。这场需求爆炸正迫使AI基础设施彻底重构,催生出以令牌吞吐效率为核心成功指标的新经济模型。AI人才回流潮:为何明星研究者正重返科技巨头顶尖AI研究员从明星初创公司回归科技巨头的核心团队,已非单纯的职业选择,而是人工智能行业进入战略转折点的关键信号。本文深度剖析这场‘人才回流’现象背后的产业逻辑——当行业重心从模型构建转向部署落地,拥有完整生态的大型平台正重新成为精英人才的Agibot携手HOPE联盟:开放竞赛如何加速具身智能革命中国领先的具身智能公司Agibot近日宣布与Hitch Open AI乒乓球自主决策挑战赛(HOPE)达成战略合作。此举将全球学术竞赛转化为工业机器人的高级试验场,为物理AI领域的生态共创树立了新范式。阶跃AI突破落地,中国首款量产“Grok+FSD”式智能车问世中国汽车AI领域迎来关键拐点:极氪8X SUV搭载阶跃星辰Super Eva智能系统正式开启大规模交付。这标志着在西方原型车之外,首次实现了“Grok+FSD”式一体化体验的商业化落地,将先进大语言模型从实验室演示大规模带入消费者手中。

常见问题

这次公司发布“Sunrise's $1B Bet: How Specialized Inference Chips Are Reshaping China's AI Hardware Race”主要讲了什么?

The announcement of Sunrise's latest funding round represents more than just another capital infusion into China's semiconductor sector—it marks a strategic inflection point in the…

从“Sunrise S3 vs Nvidia L4 benchmark comparison 2026”看,这家公司的这次发布为什么值得关注?

Sunrise's architectural philosophy represents a fundamental rethinking of GPU design for the inference era. Unlike general-purpose GPUs that must handle diverse workloads from scientific computing to graphics rendering…

围绕“China inference GPU market share growth projections”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。