技术深度解析
三层架构:感知、认知、行动
高继扬提出的三层架构并非单纯的概念框架——它是对端到端模型试图将整个具身智能流水线压缩进单一神经网络的直接回应。三层结构强制了一种模块化、可调试、可扩展的方法。
- 感知层:该层处理摄像头、LiDAR、触觉传感器和本体感觉的传感器融合。与自动驾驶不同,具身智能必须在杂乱、可变形环境中操作(例如从一碗西红柿中拣出一个)。星图很可能采用多模态Transformer架构,将RGB-D图像与力-力矩读数融合。关键工程挑战是时间对齐——30Hz的摄像头流必须与100Hz的触觉传感器馈送同步。星图的GitHub仓库`starmap-perception-fusion`(近期更新,获1.2k星标)提供了使用滑动窗口注意力机制进行实时多模态对齐的参考实现。
- 认知层:这是决策核心。高继扬明确否定了单一LLM或VLM能处理所有推理的观点。相反,星图使用分层规划器:一个高层符号规划器(基于PDDL或学习策略),将“煮咖啡”这样的任务分解为子目标(拿杯子、走到咖啡机、按按钮);以及一个低层反应式规划器,负责实时调整。认知层还包括一个世界模型——一个学习型模拟器,能在执行前预测动作结果。这对安全操作至关重要;模型可以“想象”一次抓取是否会导致液体泼洒。星图的`starmap-world-model`仓库(2.3k星标)实现了一个图神经网络(GNN),可预测杂乱场景中的物体动力学,在BEHAVIOR-1K基准上达到94%的准确率。
- 行动层:该层将高层指令转化为电机扭矩。星图使用模型预测控制(MPC)框架配合学习型动力学模型。创新之处在于“残差策略”——一个小型神经网络,用于修正MPC输出中未建模的摩擦或物体变形。这种混合方法显著缩小了仿真到现实的差距。星图内部测试的基准显示,与纯MPC或纯学习方法相比,抓取失败率降低了40%。
| 架构层 | 关键技术 | 基准指标 | 星图性能 | 行业基线(如RT-2) |
|---|---|---|---|---|
| 感知 | 多模态Transformer | 物体检测mAP(YCB数据集) | 89.7% | 82.3% |
| 认知 | 分层规划器 + GNN世界模型 | 任务成功率(BEHAVIOR-1K) | 91.2% | 78.5% |
| 行动 | MPC + 残差策略 | 抓取成功率(可变形物体) | 88.4% | 71.1% |
数据要点: 星图的模块化架构在关键基准上比端到端基线提升了10-17个百分点。提升最大的在行动层,混合MPC+残差策略直接解决了仿真到现实的差距——这是纯学习方法难以应对的问题。
2800万美元的数据飞轮
高继扬的2800万美元数据投资不仅关乎规模,更关乎质量和多样性。星图已在受控环境(仓库、厨房、实验室)中部署了50台定制数据采集机器人,每天自主执行数千次操作任务。每台机器人配备6自由度力-力矩传感器、高速摄像头和触觉指尖。数据流水线包括:
- 自动标注:使用预训练分割模型实时标注物体姿态和接触点。
- 失败日志:每次失败的抓取、滑落或碰撞都附带传感器遥测数据,创建丰富的边缘案例数据集。
- 仿真增强:真实数据用于微调模拟器(基于Isaac Gym),缩小仿真到现实的差距,形成真实数据改进仿真、仿真生成更真实合成数据的良性循环。
规模前所未有。星图声称已收集超过1000万个真实世界操作片段,每个片段包含50多个传感器通道。作为对比,最大的公开数据集DROID约有35万个片段。这种数据护城河可以说比任何算法都更具防御性——算法可以被复制,但如此规模的专有数据集无法被复制。
关键玩家与案例研究
星图 vs. 业界
高继扬的方法与具身智能领域其他知名玩家形成鲜明对比:
| 公司/项目 | 方法 | 数据策略 | 关键指标 | 融资 |
|---|---|---|---|---|
| 星图 | 模块化三层架构 | 2800万美元专用数据采集车队 | 1000万+真实片段 | 5000万美元(A轮) |
| Google DeepMind (RT-2, RT-X) | 端到端VLM | 利用公开数据集 + 仿真 | 100万+片段(混合) | 无(内部项目) |
| Cov