具身AI芯片战争：为何“大脑”竞赛已超越“身体”进化

具身AI的革命，在硬件尚未走出实验室之前，就已率先在硅片上打响。一类全新的专用芯片——融合了神经处理单元（NPU）、微控制器单元（MCU）和传感器接口——正逐步取代机器人中通用的GPU。当前两大对立策略主导战场：将所有功能集成于单一裸片的单片式SoC，以及允许随机器人形态进化灵活升级的模块化芯粒设计。英伟达、高通以及一大批初创公司正竞相推出能在10瓦功耗以下运行大语言模型、视觉Transformer和实时伺服控制的芯片。赌注空前巨大：胜出者将可能定义具身智能的事实标准。但碎片化的风险真实存在，而终极奖赏——一个能实时理解并操控物理世界的芯片——仍悬而未决。

技术深度解析

具身AI芯片的核心工程挑战，在于融合三种根本不同的计算负载：（1）视觉与语言推理——通常基于Transformer模型，需要高并行吞吐量和巨大内存带宽；（2）实时运动控制——确定性、低延迟的控制环路（1-10 kHz），要求精确时序和最小抖动；（3）传感器融合——整合来自摄像头、LiDAR、IMU和触觉传感器的数据，这些数据具有不同的速率和格式。

传统方法使用分离的芯片：一颗GPU或NPU负责推理，一颗独立的MCU或FPGA负责控制，外加离散的传感器集线器。这造成了延迟瓶颈和能效低下。新一代芯片的目标是将这些功能统一到单一裸片或封装中。

架构路径：

1. 异构核心统一SoC： 英伟达（凭借其Jetson Orin和即将推出的Thor）将GPU、CPU和专用深度学习加速器（DLA）集成到一颗芯片上。关键创新在于共享内存池，消除了推理域和控制域之间的数据拷贝。英伟达宣布将于2025年推出的Thor，号称拥有2000 TOPS的AI性能，同时集成了用于实时控制的功能安全岛。

2. NPU中心设计： Esperanto Technologies和Hailo（现属Intel旗下）等初创公司正在构建拥有数百个小型RISC-V核心的芯片，专门优化用于Transformer推理。Esperanto的ET-SoC-1拥有1092个RISC-V核心，在20W功耗下实现400 TOPS——非常适合边缘机器人。其代价是：这些芯片缺乏专用的电机控制外设，需要配套的MCU。

3. 基于芯粒的模块化平台： 这一方法由SiFive和开源社区力推，采用带有高速互连（UCIe标准）的基底裸片，可连接专用芯粒——NPU模块、MCU模块、传感器融合模块。优势在于：机器人设计师可以在不重新设计整块电路板的情况下，随着模型升级而更换AI芯粒。GitHub上的开源项目“Omnibot”（获得6800颗星）为机器人大脑提供了参考芯粒设计。

竞争者基准测试：

| 芯片 | 架构 | AI TOPS (INT8) | 功耗 (W) | 实时控制 | 内存带宽 (GB/s) |
|---|---|---|---|---|---|
| NVIDIA Jetson AGX Orin | GPU + DLA + CPU | 275 | 15-60 | 专用安全岛 | 204.8 |
| Qualcomm RB5 (QCS8250) | Hexagon NPU + Kryo CPU | 15 | 5-15 | 共享DSP用于控制 | 68 |
| Esperanto ET-SoC-1 | 1092个RISC-V核心 | 400 | 20 | 无专用控制器 | 256 |
| SiFive Intelligence X280 | RISC-V向量 + NPU芯粒 | 100 (每芯粒) | 10 (每芯粒) | 通过芯粒可配置 | 128 (每芯粒) |

数据要点： Esperanto芯片在纯推理方面提供了最佳的TOPS每瓦性能，但缺乏实时控制功能。英伟达的Orin提供了最均衡的封装，而芯粒方法则提供了灵活性，但代价是集成复杂性。市场仍在寻找一颗能在所有三个维度上都表现出色的芯片。

一个关键的技术障碍是确定性延迟。Transformer模型的执行时间会因输入长度和模型大小而变化。对于一个接球的机器人来说，10毫秒的推理时间方差就可能导致失败。英伟达的解决方案是一个硬件调度器，为推理保留固定的时间片，而芯粒设计则通过UCIe互连使用时间触发协议。这两种方法都尚未在大规模应用中得到充分验证。

关键参与者与案例研究

英伟达仍然是800磅重的大猩猩。其Jetson平台为超过100万台已部署的机器人提供动力，从仓库AMR到手术辅助机器人。即将推出的Thor芯片面向人形机器人，集成了2000 TOPS的GPU和一个专用的“运动规划引擎”——一个用于逆运动学和碰撞检测的硬化加速器。英伟达的策略是拥有整个堆栈：硬件、仿真（Isaac Sim）和模型训练（Omniverse）。

高通正从智能手机转向机器人，推出其RB系列。用于Boston Dynamics Spot机器人的RB5平台，在低于15W的功耗下提供15 TOPS——非常适合电池供电设备。高通的优势在于：其Hexagon NPU已针对设备端AI进行了优化，而其调制解调器专长则支持云端连接的机器人。然而，其实时控制能力落后于英伟达。

值得关注的初创公司：

- Syntiant（加州尔湾）开发了一款芯片，能以140微瓦的功耗运行一个小型世界模型（1000万参数）。虽然对于完全自主来说太弱，但它能实现始终在线的唤醒词检测和玩具机器人的低功耗导航。
- Tenstorrent（多伦多）正在构建一个基于芯粒的AI加速器，使用RISC-V核心网格。其“Grayskull”芯片在75W功耗下实现500 TOPS，但该公司对数据中心推理的关注推迟了其机器人专用路线图。
- RoboBrain（一家由前Google Brain研究人员创立的隐形初创公司）声称其芯片能够使用一种新颖的模拟计算架构，在5W功耗下运行一个70亿参数的模型。

时间归档

延伸阅读

常见问题

这篇关于“Embodied AI Chip War: Why the Brain Race Outpaces the Body”的文章讲了什么？

The embodied AI revolution is being fought on silicon before the hardware has even left the lab. A new class of specialized chips—merging neural processing units (NPUs), microcontr…

从“What is the difference between an NPU and a GPU for robot brains?”看，这件事为什么值得关注？

The core engineering challenge in embodied AI chips is the fusion of three fundamentally different compute workloads: (1) vision and language inference—typically transformer-based models requiring high parallel throughpu…

如果想继续追踪“How does chiplet architecture solve the robot chip upgrade problem?”，应该重点看什么？

可以继续查看本文整理的原文链接、相关文章和 AI 分析部分，快速了解事件背景、影响与后续进展。