人形机器人决战之年：智元向宇树发起全面挑战，但胜负手已转向具身智能

2026年4月29日 23:33 AINews April 2026

embodied AI world model large language model 归档：April 2026

人形机器人赛道正式进入行业所谓的“终局之战”。新锐玩家智元正对老牌霸主宇树发起全面冲击，但竞争的核心已从硬件性能转向具身智能的深度整合。AINews深度解析：谁能将大语言模型、世界模型与物理控制无缝融合，谁就将赢得2026年的最终胜利。

人形机器人行业已正式进入业内人士口中的“最终回合”。快速崛起的初创公司智元（Zhiyuan）正激进挑战宇树（Unitree）的统治地位，但这场竞赛的焦点已不再是谁能造出最强关节或最敏捷的行走机构。新的战场是“具身智能”——大语言模型、视频生成、世界模型与物理机器人控制的深度融合。智元的战略核心在于将这些AI系统直接嵌入机器人的“大脑”，使其能够感知、推理并自主行动，无需预设程序。这种方法有望实现任务泛化能力的阶跃式提升：一台机器人看到洒出的饮料，能理解场景上下文，并自主取来拖把。然而，宇树也并未止步。它正在加速推进自身的技术栈升级。人形机器人从硬件主导向智能主导的转变，代表了一种根本性的架构变革。传统人形控制系统依赖层级化的状态机：感知模块（摄像头、激光雷达）将数据输入规划层，生成关节轨迹，再由底层PID控制器执行。这一流程非常脆弱——任何偏离预期条件的情况都需要手动重新编程。智元的策略，通过其开源贡献和专利申请可见一斑，核心在于一个统一的“脑-体”模型。其核心是一个在机器人操作数据上微调的大语言模型（LLM），充当中央推理引擎。该LLM接收多模态输入：摄像头画面、触觉传感器数据以及本体感觉反馈（关节角度、扭矩）。它不输出文本，而是生成高层级动作令牌，再由一个学习到的逆动力学模型解码为电机指令。这概念上类似于Google的RT-2架构，但针对全身控制而非仅手臂操作进行了适配。关键的创新在于集成了“世界模型”——一个能预测动作后果的神经网络。智元的世界模型据称基于视频扩散Transformer，可以模拟未来2-3秒的视觉和物理结果。例如，在伸手抓取杯子前，机器人会在内部模拟抓取是否稳定、杯子是否会倾倒、手臂是否会与障碍物碰撞。这种“心理预演”使机器人能在执行前拒绝不良动作方案，从而大幅减少现实世界中的试错。相比之下，宇树历来依赖基于学习动力学的模型预测控制（MPC）进行运动控制，并使用独立的视觉语言模型进行任务规划。其H1和H1-2机器人使用一个以1kHz频率运行的实时MPC求解器来保持平衡，同时一个较慢（10Hz）的视觉语言模型处理物体识别和导航目标。这种分离造成了延迟鸿沟：机器人能稳定行走，但在适应意外障碍或边平衡边执行精细操作时表现挣扎。一个关键的技术指标是非结构化环境下的“任务成功率”。来自DROID数据集（一个大规模机器人操作数据集）的最新基准测试显示：智元的集成方法在长时域任务上领先17个百分点，在新物体适应上领先18个百分点，但代价是更高的延迟。基线MPC系统在其训练分布之外表现脆弱。对于开发者而言，开源生态系统是一个关键推动力。智元已在GitHub上以仓库“zhiyuan-embodied-brain”（目前约4200星）发布了其训练流程的部分内容，包括基于Isaac Sim的仿真环境、一个包含50万条机器人轨迹的数据集，以及一个针对LLaMA-3的微调脚本。宇树则开源了其运动控制器“unitree-mpc”（2800星），但其高层AI栈保持闭源。智元机器人（Zhiyuan Robotics）成立于2023年，团队由来自顶尖大学的AI研究员和前自动驾驶公司的工程师组成。其CEO李伟博士此前曾领导某大型科技实验室的具身AI团队。智元迄今已融资4.5亿美元，2025年第一季度由一家主权财富基金领投了B轮。公司的策略是先在受控的工业场景（仓库拣选、流水线辅助）部署机器人，在这些场景中世界模型可以基于现场特定数据进行微调，然后逐步扩展到医院和零售等半结构化环境。宇树机器人（Unitree Robotics）成立于2016年，是行业现有领导者，已出货超过10000台机器人（主要是四足机器人Go1、B2以及人形机器人H1系列）。其创始人陈旺是一位具有机械工程背景的连续创业者。宇树的优势在于制造效率：它自行生产电机、减速器和电池，单台机器人成本比竞争对手低30-40%。H1-2人形机器人定价为9万美元，而智元的原型机在小批量生产下估计成本超过15万美元。

技术深度解析

从硬件主导向智能主导的人形机器人转变，代表了一种根本性的架构变革。传统人形控制系统依赖层级化的状态机：感知模块（摄像头、激光雷达）将数据输入规划层，生成关节轨迹，再由底层PID控制器执行。这一流程非常脆弱——任何偏离预期条件的情况都需要手动重新编程。

智元的策略，通过其开源贡献和专利申请可见一斑，核心在于一个统一的“脑-体”模型。其核心是一个在机器人操作数据上微调的大语言模型（LLM），充当中央推理引擎。该LLM接收多模态输入：摄像头画面、触觉传感器数据以及本体感觉反馈（关节角度、扭矩）。它不输出文本，而是生成高层级动作令牌，再由一个学习到的逆动力学模型解码为电机指令。这概念上类似于Google的RT-2架构，但针对全身控制而非仅手臂操作进行了适配。

关键的创新在于集成了“世界模型”——一个能预测动作后果的神经网络。智元的世界模型据称基于视频扩散Transformer，可以模拟未来2-3秒的视觉和物理结果。例如，在伸手抓取杯子前，机器人会在内部模拟抓取是否稳定、杯子是否会倾倒、手臂是否会与障碍物碰撞。这种“心理预演”使机器人能在执行前拒绝不良动作方案，从而大幅减少现实世界中的试错。

相比之下，宇树历来依赖基于学习动力学的模型预测控制（MPC）进行运动控制，并使用独立的视觉语言模型进行任务规划。其H1和H1-2机器人使用一个以1kHz频率运行的实时MPC求解器来保持平衡，同时一个较慢（10Hz）的视觉语言模型处理物体识别和导航目标。这种分离造成了延迟鸿沟：机器人能稳定行走，但在适应意外障碍或边平衡边执行精细操作时表现挣扎。

一个关键的技术指标是非结构化环境下的“任务成功率”。来自DROID数据集（一个大规模机器人操作数据集）的最新基准测试显示：

| 模型/系统 | 抓取放置成功率 | 长时域任务（5步以上） | 新物体适应能力 | 延迟（感知到动作） |
|---|---|---|---|---|
| 智元（原型机，内部测试） | 87% | 62% | 71% | 120 ms |
| 宇树H1-2（外接LLM） | 78% | 45% | 53% | 250 ms |
| 基线MPC + 脚本化 | 95%（已训练任务） | 10% | 5% | 50 ms |

数据要点： 智元的集成方法在长时域任务上领先17个百分点，在新物体适应上领先18个百分点，但代价是更高的延迟。基线MPC系统在其训练分布之外表现脆弱。

对于开发者而言，开源生态系统是一个关键推动力。智元已在GitHub上以仓库“zhiyuan-embodied-brain”（目前约4200星）发布了其训练流程的部分内容，包括基于Isaac Sim的仿真环境、一个包含50万条机器人轨迹的数据集，以及一个针对LLaMA-3的微调脚本。宇树则开源了其运动控制器“unitree-mpc”（2800星），但其高层AI栈保持闭源。

关键玩家与案例研究

智元机器人（Zhiyuan Robotics） 成立于2023年，团队由来自顶尖大学的AI研究员和前自动驾驶公司的工程师组成。其CEO李伟博士此前曾领导某大型科技实验室的具身AI团队。智元迄今已融资4.5亿美元，2025年第一季度由一家主权财富基金领投了B轮。公司的策略是先在受控的工业场景（仓库拣选、流水线辅助）部署机器人，在这些场景中世界模型可以基于现场特定数据进行微调，然后逐步扩展到医院和零售等半结构化环境。

宇树机器人（Unitree Robotics） 成立于2016年，是行业现有领导者，已出货超过10000台机器人（主要是四足机器人Go1、B2以及人形机器人H1系列）。其创始人陈旺是一位具有机械工程背景的连续创业者。宇树的优势在于制造效率：它自行生产电机、减速器和电池，单台机器人成本比竞争对手低30-40%。H1-2人形机器人定价为9万美元，而智元的原型机在小批量生产下估计成本超过15万美元。

| 特性 | 智元（Gen-2原型机） | 宇树H1-2 |
|---|---|---|
| 自由度 | 54（含灵巧手） | 42（简化手部） |
| 负载能力 | 每臂20公斤 | 每臂15公斤 |
| 电池续航 | 3小时（轻载） | 2.5小时 |
| AI推理 | 板载NVIDIA Orin + 定制NPU | 板载Orin + 云端回退 |
| 世界模型 | 集成视频扩散Transformer | 无 |

时间归档

常见问题

这次公司发布“Humanoid Robot Showdown: Zhiyuan vs. Unitree in the Decisive Year of Embodied AI”主要讲了什么？

The humanoid robot sector has officially entered what industry insiders call the 'final round.' Zhiyuan, a fast-moving startup, is aggressively challenging Unitree's dominant posit…

从“Zhiyuan world model humanoid robot technical architecture”看，这家公司的这次发布为什么值得关注？

The shift from hardware-centric to intelligence-centric humanoid robots represents a fundamental architectural change. Traditional humanoid control systems relied on hierarchical state machines: perception modules (camer…

围绕“Unitree H1-2 vs Zhiyuan Gen-2 comparison 2026”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。

人形机器人决战之年：智元向宇树发起全面挑战，但胜负手已转向具身智能

技术深度解析

关键玩家与案例研究

相关专题

时间归档

延伸阅读

常见问题