技术深度剖析
区分可行初创企业与其余公司的核心技术挑战,已不仅仅是设计一个新颖的矩阵乘法单元。关键在于对完整系统——从硅片到软件——的整体工程实现,确保其在真实场景中能提供切实的优势。从架构上看,幸存者正分化为两大阵营:一是专注于为特定算子(例如LLM中的稀疏注意力、闪存解码)提供极致效率;二是构建更通用、可编程的架构,以覆盖更广泛的AI工作负载,同时效率优于GPU。
一个关键差异点在于内存子系统。带宽和延迟往往是真正的瓶颈,而非原始算力。像Groq(凭借其庞大的片上SRAM和确定性执行)和Tenstorrent(强调可扩展数据流和高带宽内存)这样的初创公司,已将赌注押在了新颖的内存架构上。软件栈同样具有决定性。没有强大编译器、内核库及框架(PyTorch、TensorFlow、JAX)集成的芯片,不过是一个昂贵的镇纸。由谷歌和开源社区大力支持的`MLIR`(多级中间表示)编译器基础设施项目,已成为一个基础性战场。在MLIR上构建其软件的初创公司,例如使用`Cerebras Graph Compiler (CGC)`的`Cerebras`,相比那些从零构建专有工具链的公司,获得了显著的开发速度优势。
性能的衡量需置于总拥有成本(TCO)的语境下。基准测试必须反映端到端延迟、实际批处理大小下的吞吐量以及功耗。`MLPerf`推理和训练基准测试已成为行业的成绩单,尽管其对边缘和专用场景的相关性有时存在争议。
| 架构重点 | 代表初创企业 | 关键技术杠杆 | 主要目标市场 |
|---|---|---|---|
| 极致专用化 | SambaNova(可重构数据流)、Mythic(模拟内存计算) | 针对特定模型类型(如大模型、计算机视觉)的软硬件协同设计 | 云与企业数据中心 |
| 效率优先的通用化 | Tenstorrent、Groq、SiMa.ai | 新颖的内存层次结构、确定性执行、超低精度运算 | 边缘推理、汽车、云推理 |
| 软件定义硅 | SimpleMachines(组合式AI)、Untether AI | 使用大量简单核心、近内存计算的高度可编程架构 | 需要灵活性的多样化工作负载 |
数据启示: 表格揭示了战略上的分化。初创企业要么通过定制硬件深入解决狭窄问题,要么押注于更通用但经过效率优化的架构。“通用AI加速器”市场已过度拥挤且由现有巨头主导,这迫使幸存者转向定义明确的利基市场。
关键玩家与案例研究
市场格局正在分层。顶层是少数资金雄厚、商业化进展迅速的公司,它们已成功交付多代芯片,并赢得了主要客户的设计订单。
* Cerebras Systems: 大胆技术雄心的案例研究。其晶圆级引擎(WSE-3)是有史以来最大的芯片,包含4万亿个晶体管。通过消除大模型训练中的片间通信瓶颈,Cerebras在AI研究和大型训练领域(客户如阿贡国家实验室、葛兰素史克)开辟了一个可防御的利基市场。其生存的前提是前沿模型的持续增长,这些模型的规模甚至能高效超越最大的GPU集群。
* Groq: 最初专注于传统机器学习的超低延迟推理,Groq已成功转型为LLM推理领域的有力竞争者。其LPU(语言处理单元)推理引擎,利用确定性硬件和单核架构,在Llama、Mixtral等热门开源LLM上展示了领先的吞吐量和延迟表现。Groq面临的挑战是扩展其软件生态系统和制造能力以满足潜在需求。
* Tenstorrent: 由行业资深人士Jim Keller领导,Tenstorrent致力于开发一种可扩展的数据流架构,可作为IP授权或作为芯片出售。其策略是双重的:在云AI加速领域竞争,同时将其技术授权用于边缘和汽车应用(类似Arm的路径)。近期与LG和三星在汽车领域的合作,以及现代汽车的重大投资,都显示了其早期的商业吸引力。
* SiMa.ai: 以“软件优先”的方法瞄准边缘市场,SiMa.ai的MLSoC(机器学习片上系统)专为低功耗、高效率的边缘计算机视觉和多模态AI设计。通过聚焦于英伟达GPU往往性能过剩且能效不高的细分市场,SiMa已在工业领域建立了合作伙伴关系。