技术深度解析
从硬件主导向智能主导的人形机器人转变,代表了一种根本性的架构变革。传统人形控制系统依赖层级化的状态机:感知模块(摄像头、激光雷达)将数据输入规划层,生成关节轨迹,再由底层PID控制器执行。这一流程非常脆弱——任何偏离预期条件的情况都需要手动重新编程。
智元的策略,通过其开源贡献和专利申请可见一斑,核心在于一个统一的“脑-体”模型。其核心是一个在机器人操作数据上微调的大语言模型(LLM),充当中央推理引擎。该LLM接收多模态输入:摄像头画面、触觉传感器数据以及本体感觉反馈(关节角度、扭矩)。它不输出文本,而是生成高层级动作令牌,再由一个学习到的逆动力学模型解码为电机指令。这概念上类似于Google的RT-2架构,但针对全身控制而非仅手臂操作进行了适配。
关键的创新在于集成了“世界模型”——一个能预测动作后果的神经网络。智元的世界模型据称基于视频扩散Transformer,可以模拟未来2-3秒的视觉和物理结果。例如,在伸手抓取杯子前,机器人会在内部模拟抓取是否稳定、杯子是否会倾倒、手臂是否会与障碍物碰撞。这种“心理预演”使机器人能在执行前拒绝不良动作方案,从而大幅减少现实世界中的试错。
相比之下,宇树历来依赖基于学习动力学的模型预测控制(MPC)进行运动控制,并使用独立的视觉语言模型进行任务规划。其H1和H1-2机器人使用一个以1kHz频率运行的实时MPC求解器来保持平衡,同时一个较慢(10Hz)的视觉语言模型处理物体识别和导航目标。这种分离造成了延迟鸿沟:机器人能稳定行走,但在适应意外障碍或边平衡边执行精细操作时表现挣扎。
一个关键的技术指标是非结构化环境下的“任务成功率”。来自DROID数据集(一个大规模机器人操作数据集)的最新基准测试显示:
| 模型/系统 | 抓取放置成功率 | 长时域任务(5步以上) | 新物体适应能力 | 延迟(感知到动作) |
|---|---|---|---|---|
| 智元(原型机,内部测试) | 87% | 62% | 71% | 120 ms |
| 宇树H1-2(外接LLM) | 78% | 45% | 53% | 250 ms |
| 基线MPC + 脚本化 | 95%(已训练任务) | 10% | 5% | 50 ms |
数据要点: 智元的集成方法在长时域任务上领先17个百分点,在新物体适应上领先18个百分点,但代价是更高的延迟。基线MPC系统在其训练分布之外表现脆弱。
对于开发者而言,开源生态系统是一个关键推动力。智元已在GitHub上以仓库“zhiyuan-embodied-brain”(目前约4200星)发布了其训练流程的部分内容,包括基于Isaac Sim的仿真环境、一个包含50万条机器人轨迹的数据集,以及一个针对LLaMA-3的微调脚本。宇树则开源了其运动控制器“unitree-mpc”(2800星),但其高层AI栈保持闭源。
关键玩家与案例研究
智元机器人(Zhiyuan Robotics) 成立于2023年,团队由来自顶尖大学的AI研究员和前自动驾驶公司的工程师组成。其CEO李伟博士此前曾领导某大型科技实验室的具身AI团队。智元迄今已融资4.5亿美元,2025年第一季度由一家主权财富基金领投了B轮。公司的策略是先在受控的工业场景(仓库拣选、流水线辅助)部署机器人,在这些场景中世界模型可以基于现场特定数据进行微调,然后逐步扩展到医院和零售等半结构化环境。
宇树机器人(Unitree Robotics) 成立于2016年,是行业现有领导者,已出货超过10000台机器人(主要是四足机器人Go1、B2以及人形机器人H1系列)。其创始人陈旺是一位具有机械工程背景的连续创业者。宇树的优势在于制造效率:它自行生产电机、减速器和电池,单台机器人成本比竞争对手低30-40%。H1-2人形机器人定价为9万美元,而智元的原型机在小批量生产下估计成本超过15万美元。
| 特性 | 智元(Gen-2原型机) | 宇树H1-2 |
|---|---|---|
| 自由度 | 54(含灵巧手) | 42(简化手部) |
| 负载能力 | 每臂20公斤 | 每臂15公斤 |
| 电池续航 | 3小时(轻载) | 2.5小时 |
| AI推理 | 板载NVIDIA Orin + 定制NPU | 板载Orin + 云端回退 |
| 世界模型 | 集成视频扩散Transformer | 无 |