技术深度解析
具身AI芯片的核心工程挑战,在于融合三种根本不同的计算负载:(1)视觉与语言推理——通常基于Transformer模型,需要高并行吞吐量和巨大内存带宽;(2)实时运动控制——确定性、低延迟的控制环路(1-10 kHz),要求精确时序和最小抖动;(3)传感器融合——整合来自摄像头、LiDAR、IMU和触觉传感器的数据,这些数据具有不同的速率和格式。
传统方法使用分离的芯片:一颗GPU或NPU负责推理,一颗独立的MCU或FPGA负责控制,外加离散的传感器集线器。这造成了延迟瓶颈和能效低下。新一代芯片的目标是将这些功能统一到单一裸片或封装中。
架构路径:
1. 异构核心统一SoC: 英伟达(凭借其Jetson Orin和即将推出的Thor)将GPU、CPU和专用深度学习加速器(DLA)集成到一颗芯片上。关键创新在于共享内存池,消除了推理域和控制域之间的数据拷贝。英伟达宣布将于2025年推出的Thor,号称拥有2000 TOPS的AI性能,同时集成了用于实时控制的功能安全岛。
2. NPU中心设计: Esperanto Technologies和Hailo(现属Intel旗下)等初创公司正在构建拥有数百个小型RISC-V核心的芯片,专门优化用于Transformer推理。Esperanto的ET-SoC-1拥有1092个RISC-V核心,在20W功耗下实现400 TOPS——非常适合边缘机器人。其代价是:这些芯片缺乏专用的电机控制外设,需要配套的MCU。
3. 基于芯粒的模块化平台: 这一方法由SiFive和开源社区力推,采用带有高速互连(UCIe标准)的基底裸片,可连接专用芯粒——NPU模块、MCU模块、传感器融合模块。优势在于:机器人设计师可以在不重新设计整块电路板的情况下,随着模型升级而更换AI芯粒。GitHub上的开源项目“Omnibot”(获得6800颗星)为机器人大脑提供了参考芯粒设计。
竞争者基准测试:
| 芯片 | 架构 | AI TOPS (INT8) | 功耗 (W) | 实时控制 | 内存带宽 (GB/s) |
|---|---|---|---|---|---|
| NVIDIA Jetson AGX Orin | GPU + DLA + CPU | 275 | 15-60 | 专用安全岛 | 204.8 |
| Qualcomm RB5 (QCS8250) | Hexagon NPU + Kryo CPU | 15 | 5-15 | 共享DSP用于控制 | 68 |
| Esperanto ET-SoC-1 | 1092个RISC-V核心 | 400 | 20 | 无专用控制器 | 256 |
| SiFive Intelligence X280 | RISC-V向量 + NPU芯粒 | 100 (每芯粒) | 10 (每芯粒) | 通过芯粒可配置 | 128 (每芯粒) |
数据要点: Esperanto芯片在纯推理方面提供了最佳的TOPS每瓦性能,但缺乏实时控制功能。英伟达的Orin提供了最均衡的封装,而芯粒方法则提供了灵活性,但代价是集成复杂性。市场仍在寻找一颗能在所有三个维度上都表现出色的芯片。
一个关键的技术障碍是确定性延迟。Transformer模型的执行时间会因输入长度和模型大小而变化。对于一个接球的机器人来说,10毫秒的推理时间方差就可能导致失败。英伟达的解决方案是一个硬件调度器,为推理保留固定的时间片,而芯粒设计则通过UCIe互连使用时间触发协议。这两种方法都尚未在大规模应用中得到充分验证。
关键参与者与案例研究
英伟达仍然是800磅重的大猩猩。其Jetson平台为超过100万台已部署的机器人提供动力,从仓库AMR到手术辅助机器人。即将推出的Thor芯片面向人形机器人,集成了2000 TOPS的GPU和一个专用的“运动规划引擎”——一个用于逆运动学和碰撞检测的硬化加速器。英伟达的策略是拥有整个堆栈:硬件、仿真(Isaac Sim)和模型训练(Omniverse)。
高通正从智能手机转向机器人,推出其RB系列。用于Boston Dynamics Spot机器人的RB5平台,在低于15W的功耗下提供15 TOPS——非常适合电池供电设备。高通的优势在于:其Hexagon NPU已针对设备端AI进行了优化,而其调制解调器专长则支持云端连接的机器人。然而,其实时控制能力落后于英伟达。
值得关注的初创公司:
- Syntiant(加州尔湾)开发了一款芯片,能以140微瓦的功耗运行一个小型世界模型(1000万参数)。虽然对于完全自主来说太弱,但它能实现始终在线的唤醒词检测和玩具机器人的低功耗导航。
- Tenstorrent(多伦多)正在构建一个基于芯粒的AI加速器,使用RISC-V核心网格。其“Grayskull”芯片在75W功耗下实现500 TOPS,但该公司对数据中心推理的关注推迟了其机器人专用路线图。
- RoboBrain(一家由前Google Brain研究人员创立的隐形初创公司)声称其芯片能够使用一种新颖的模拟计算架构,在5W功耗下运行一个70亿参数的模型。