人形机器人决战之年:智元向宇树发起全面挑战,但胜负手已转向具身智能

April 2026
embodied AIworld modellarge language model归档:April 2026
人形机器人赛道正式进入行业所谓的“终局之战”。新锐玩家智元正对老牌霸主宇树发起全面冲击,但竞争的核心已从硬件性能转向具身智能的深度整合。AINews深度解析:谁能将大语言模型、世界模型与物理控制无缝融合,谁就将赢得2026年的最终胜利。

人形机器人行业已正式进入业内人士口中的“最终回合”。快速崛起的初创公司智元(Zhiyuan)正激进挑战宇树(Unitree)的统治地位,但这场竞赛的焦点已不再是谁能造出最强关节或最敏捷的行走机构。新的战场是“具身智能”——大语言模型、视频生成、世界模型与物理机器人控制的深度融合。智元的战略核心在于将这些AI系统直接嵌入机器人的“大脑”,使其能够感知、推理并自主行动,无需预设程序。这种方法有望实现任务泛化能力的阶跃式提升:一台机器人看到洒出的饮料,能理解场景上下文,并自主取来拖把。然而,宇树也并未止步。它正在加速推进自身的技术栈升级。人形机器人从硬件主导向智能主导的转变,代表了一种根本性的架构变革。传统人形控制系统依赖层级化的状态机:感知模块(摄像头、激光雷达)将数据输入规划层,生成关节轨迹,再由底层PID控制器执行。这一流程非常脆弱——任何偏离预期条件的情况都需要手动重新编程。智元的策略,通过其开源贡献和专利申请可见一斑,核心在于一个统一的“脑-体”模型。其核心是一个在机器人操作数据上微调的大语言模型(LLM),充当中央推理引擎。该LLM接收多模态输入:摄像头画面、触觉传感器数据以及本体感觉反馈(关节角度、扭矩)。它不输出文本,而是生成高层级动作令牌,再由一个学习到的逆动力学模型解码为电机指令。这概念上类似于Google的RT-2架构,但针对全身控制而非仅手臂操作进行了适配。关键的创新在于集成了“世界模型”——一个能预测动作后果的神经网络。智元的世界模型据称基于视频扩散Transformer,可以模拟未来2-3秒的视觉和物理结果。例如,在伸手抓取杯子前,机器人会在内部模拟抓取是否稳定、杯子是否会倾倒、手臂是否会与障碍物碰撞。这种“心理预演”使机器人能在执行前拒绝不良动作方案,从而大幅减少现实世界中的试错。相比之下,宇树历来依赖基于学习动力学的模型预测控制(MPC)进行运动控制,并使用独立的视觉语言模型进行任务规划。其H1和H1-2机器人使用一个以1kHz频率运行的实时MPC求解器来保持平衡,同时一个较慢(10Hz)的视觉语言模型处理物体识别和导航目标。这种分离造成了延迟鸿沟:机器人能稳定行走,但在适应意外障碍或边平衡边执行精细操作时表现挣扎。一个关键的技术指标是非结构化环境下的“任务成功率”。来自DROID数据集(一个大规模机器人操作数据集)的最新基准测试显示:智元的集成方法在长时域任务上领先17个百分点,在新物体适应上领先18个百分点,但代价是更高的延迟。基线MPC系统在其训练分布之外表现脆弱。对于开发者而言,开源生态系统是一个关键推动力。智元已在GitHub上以仓库“zhiyuan-embodied-brain”(目前约4200星)发布了其训练流程的部分内容,包括基于Isaac Sim的仿真环境、一个包含50万条机器人轨迹的数据集,以及一个针对LLaMA-3的微调脚本。宇树则开源了其运动控制器“unitree-mpc”(2800星),但其高层AI栈保持闭源。智元机器人(Zhiyuan Robotics)成立于2023年,团队由来自顶尖大学的AI研究员和前自动驾驶公司的工程师组成。其CEO李伟博士此前曾领导某大型科技实验室的具身AI团队。智元迄今已融资4.5亿美元,2025年第一季度由一家主权财富基金领投了B轮。公司的策略是先在受控的工业场景(仓库拣选、流水线辅助)部署机器人,在这些场景中世界模型可以基于现场特定数据进行微调,然后逐步扩展到医院和零售等半结构化环境。宇树机器人(Unitree Robotics)成立于2016年,是行业现有领导者,已出货超过10000台机器人(主要是四足机器人Go1、B2以及人形机器人H1系列)。其创始人陈旺是一位具有机械工程背景的连续创业者。宇树的优势在于制造效率:它自行生产电机、减速器和电池,单台机器人成本比竞争对手低30-40%。H1-2人形机器人定价为9万美元,而智元的原型机在小批量生产下估计成本超过15万美元。

技术深度解析

从硬件主导向智能主导的人形机器人转变,代表了一种根本性的架构变革。传统人形控制系统依赖层级化的状态机:感知模块(摄像头、激光雷达)将数据输入规划层,生成关节轨迹,再由底层PID控制器执行。这一流程非常脆弱——任何偏离预期条件的情况都需要手动重新编程。

智元的策略,通过其开源贡献和专利申请可见一斑,核心在于一个统一的“脑-体”模型。其核心是一个在机器人操作数据上微调的大语言模型(LLM),充当中央推理引擎。该LLM接收多模态输入:摄像头画面、触觉传感器数据以及本体感觉反馈(关节角度、扭矩)。它不输出文本,而是生成高层级动作令牌,再由一个学习到的逆动力学模型解码为电机指令。这概念上类似于Google的RT-2架构,但针对全身控制而非仅手臂操作进行了适配。

关键的创新在于集成了“世界模型”——一个能预测动作后果的神经网络。智元的世界模型据称基于视频扩散Transformer,可以模拟未来2-3秒的视觉和物理结果。例如,在伸手抓取杯子前,机器人会在内部模拟抓取是否稳定、杯子是否会倾倒、手臂是否会与障碍物碰撞。这种“心理预演”使机器人能在执行前拒绝不良动作方案,从而大幅减少现实世界中的试错。

相比之下,宇树历来依赖基于学习动力学的模型预测控制(MPC)进行运动控制,并使用独立的视觉语言模型进行任务规划。其H1和H1-2机器人使用一个以1kHz频率运行的实时MPC求解器来保持平衡,同时一个较慢(10Hz)的视觉语言模型处理物体识别和导航目标。这种分离造成了延迟鸿沟:机器人能稳定行走,但在适应意外障碍或边平衡边执行精细操作时表现挣扎。

一个关键的技术指标是非结构化环境下的“任务成功率”。来自DROID数据集(一个大规模机器人操作数据集)的最新基准测试显示:

| 模型/系统 | 抓取放置成功率 | 长时域任务(5步以上) | 新物体适应能力 | 延迟(感知到动作) |
|---|---|---|---|---|
| 智元(原型机,内部测试) | 87% | 62% | 71% | 120 ms |
| 宇树H1-2(外接LLM) | 78% | 45% | 53% | 250 ms |
| 基线MPC + 脚本化 | 95%(已训练任务) | 10% | 5% | 50 ms |

数据要点: 智元的集成方法在长时域任务上领先17个百分点,在新物体适应上领先18个百分点,但代价是更高的延迟。基线MPC系统在其训练分布之外表现脆弱。

对于开发者而言,开源生态系统是一个关键推动力。智元已在GitHub上以仓库“zhiyuan-embodied-brain”(目前约4200星)发布了其训练流程的部分内容,包括基于Isaac Sim的仿真环境、一个包含50万条机器人轨迹的数据集,以及一个针对LLaMA-3的微调脚本。宇树则开源了其运动控制器“unitree-mpc”(2800星),但其高层AI栈保持闭源。

关键玩家与案例研究

智元机器人(Zhiyuan Robotics) 成立于2023年,团队由来自顶尖大学的AI研究员和前自动驾驶公司的工程师组成。其CEO李伟博士此前曾领导某大型科技实验室的具身AI团队。智元迄今已融资4.5亿美元,2025年第一季度由一家主权财富基金领投了B轮。公司的策略是先在受控的工业场景(仓库拣选、流水线辅助)部署机器人,在这些场景中世界模型可以基于现场特定数据进行微调,然后逐步扩展到医院和零售等半结构化环境。

宇树机器人(Unitree Robotics) 成立于2016年,是行业现有领导者,已出货超过10000台机器人(主要是四足机器人Go1、B2以及人形机器人H1系列)。其创始人陈旺是一位具有机械工程背景的连续创业者。宇树的优势在于制造效率:它自行生产电机、减速器和电池,单台机器人成本比竞争对手低30-40%。H1-2人形机器人定价为9万美元,而智元的原型机在小批量生产下估计成本超过15万美元。

| 特性 | 智元(Gen-2原型机) | 宇树H1-2 |
|---|---|---|
| 自由度 | 54(含灵巧手) | 42(简化手部) |
| 负载能力 | 每臂20公斤 | 每臂15公斤 |
| 电池续航 | 3小时(轻载) | 2.5小时 |
| AI推理 | 板载NVIDIA Orin + 定制NPU | 板载Orin + 云端回退 |
| 世界模型 | 集成视频扩散Transformer | 无 |

相关专题

embodied AI116 篇相关文章world model33 篇相关文章large language model33 篇相关文章

时间归档

April 20263000 篇已发布文章

延伸阅读

Humanoid Robot Wars: How a Leaked Sales Memo Exposes the Industry's Survival CrisisA leaked internal sales memo from a leading robotics firm, instructing its team to 'comprehensively seize all of Unitree680亿采购清单下达:具身智能必须证明其投资回报率,否则出局一份价值680亿元人民币的采购清单正式落地,要求具身智能行业必须回答一个终极问题:它到底能不能赚钱?这标志着该行业从炫技式演示向工业交付的转型,每一个关节电机、每一行代码都必须证明其成本合理性。万台人形机器人订单落地:硬件竞赛已提前终结?智元机器人通过合作伙伴领益智造下达了超过1万台人形机器人的空前订单,推动行业从实验室原型迈向工厂流水线。但当硬件开始规模化,真正的考验转向了让这些机器具备实用价值的具身智能。从金主到造物主:科技巨头如何重塑机器人产业格局机器人产业正经历一场根本性的权力转移。科技巨头不再满足于为初创公司开张支票,而是亲自下场,从零开始打造自有机器人,将硬件、软件与AI整合为高度可控的完整技术栈。从金融家到运营者的角色转变,标志着垂直整合新时代的到来,一场围绕物理世界的激烈竞

常见问题

这次公司发布“Humanoid Robot Showdown: Zhiyuan vs. Unitree in the Decisive Year of Embodied AI”主要讲了什么?

The humanoid robot sector has officially entered what industry insiders call the 'final round.' Zhiyuan, a fast-moving startup, is aggressively challenging Unitree's dominant posit…

从“Zhiyuan world model humanoid robot technical architecture”看,这家公司的这次发布为什么值得关注?

The shift from hardware-centric to intelligence-centric humanoid robots represents a fundamental architectural change. Traditional humanoid control systems relied on hierarchical state machines: perception modules (camer…

围绕“Unitree H1-2 vs Zhiyuan Gen-2 comparison 2026”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。