技术深度解析
双芯架构代表了对智能体AI计算的一次从零开始的重新思考。其核心原则是*异构时间分区*。“规划”芯片专为具有软实时约束的任务而设计——这类推理可能需要数秒甚至数分钟,但需要巨大的内存带宽和并行计算能力。此类芯片通常采用高带宽内存(HBM3e)和大规模脉动阵列等技术,类似于当今顶级的AI训练加速器。其微架构针对不规则的内存访问模式和长序列的依赖计算进行了优化,这正是智能体规划中常用的思维链推理和蒙特卡洛树搜索算法的典型特征。
相反,“行动”芯片的构建则为了满足硬实时保证。它优先考虑低且可预测的延迟,通常不惜牺牲峰值吞吐量。这涉及用于传感器融合(处理视觉、激光雷达、本体感知)的专用硬件、用于API工具使用的实时网络栈,以及用于控制信号的确定性执行流水线。缓存锁定、时间敏感网络控制器和冗余执行单元等技术在此很常见。两颗芯片之间的通信结构至关重要,需要超低延迟、高带宽的互连技术(例如英伟达的NVLink-C2C等专有裸片到裸片链接,或UCIe等开放标准),并具备强大的纠错能力,以保持智能体内部状态与外部行动之间的一致性。
一个关键的算法驱动因素是对持久化*智能体状态*的需求。与无状态的LLM推理不同,智能体维护着一个工作记忆、任务栈和世界模型,这些状态必须持续更新并可访问。规划芯片在其庞大、快速的内存池中托管这种持久状态。行动芯片则为了其操作而访问该状态的片段,这需要复杂的内存映射I/O和同步协议来避免竞态条件。这类似于古典大型机中分离CPU和I/O处理器的思路,但为神经计算进行了重新构想。
开源项目已开始探索其软件层面的影响。`agent-core` GitHub仓库提供了一个参考软件框架,用于在模拟的规划与执行硬件单元之间调度任务。因其在延迟约束任务编排方面的工作,该项目已获得超过2.8k星标。另一个值得注意的项目是`real-time-toolformer`,它修改了Transformer推理以实现确定性延迟,这对于行动芯片的工具调用任务至关重要。
| 芯片功能 | 关键架构特性 | 典型基准测试焦点 | 目标延迟 |
|---|---|---|---|
| 规划核心 | HBM3e(>1TB/s)、大容量SRAM(>100MB)、大规模MIMD/SIMD核心 | MMLU、GPQA、AgentBench(推理子任务) | 100毫秒 - 10秒(可变) |
| 行动外围单元 | LPDDR5X、确定性核心、硬件调度器、TSN模块 | 机器人中间件(ROS 2)延迟、API调用P99延迟、传感器融合帧率 | 1微秒 - 10毫秒(严格) |
数据要点: 规格的划分突显了需求上的根本性分歧。规划核心追求带宽和复杂推理的准确性,而行动外围单元则完全关乎在最坏情况下的延迟保证,即使这意味着更低的总体吞吐量。这种专业化在单芯片设计中是无法实现的。
主要参与者与案例研究
竞争格局正沿着新的路线分化。传统厂商如NVIDIA正在调整其路线图。虽然Blackwell GPU平台仍是单芯片巨无霸,但NVIDIA对机器人领域Jetson Orin平台的投入,暗示了双芯片理念。Orin将GPU集群(用于感知/规划)与专用的Carmel ARM CPU以及用于确定性传感器处理的独立DLA(深度学习加速器)相结合。其下一代项目“Holoscan”,明确为医疗和工业智能体设计了分离的计算和I/O引擎。
AMD收购赛灵思使其占据了独特地位。Versal AI Edge系列是单封装内双芯片概念的典范:AI引擎阵列(规划)与实时可编程逻辑架构(行动)相结合。这使得硬件编码的工具执行循环能够以纳秒级精度运行,同时与自适应的AI模型协同工作。
初创公司正直接攻克这一问题。以晶圆级引擎闻名的Cerebras Systems发布了CS-3及其配套的“Execution Unit” 小芯片。CS-3负责用于规划的万亿参数模型推理,而专用的EU则管理用于工具调用的数千个并发低延迟API会话。Tenstorrent在Jim Keller领导下的策略,将其Grayskull AI计算裸片与“Wormhole” I/O及控制裸片分离,倡导一种基于小芯片的方法,让客户可以混合搭配规划和行动裸片。
在研究领域,Google DeepMind在“Ga”(推测为 Gemini 或类似项目)上的工作,也体现了对推理与行动分离架构的探索,尽管其硬件实现细节尚未完全公开。