技术深度解析
中国在ICRA 2026上的机器人崛起建立在三大相互关联的技术支柱之上:将大语言模型(LLM)集成到低级控制回路中、采用学习型世界模型进行物理推理,以及大规模模拟到现实(sim-to-real)迁移管道的应用。
LLM嵌入式控制架构
传统机器人控制采用分层堆叠:高层任务规划、中层运动规划和底层关节控制。而中国展示的系统则打破了这一堆叠。例如,智元机器人的平台使用了一个经过微调的7B参数LLM,该模型直接输出关节扭矩指令,绕过了传统的规划层。该模型以来自多个摄像头的视觉输入和本体感觉反馈为条件。这种“端到端”方法虽然计算成本高昂,但消除了困扰模块化系统的误差累积问题。其代价是缺乏形式化保证——系统可能以不可预测的方式失败——但在实践中,它在复杂操作任务上实现了更高的成功率。
用于物理常识的世界模型
宇树科技代号为“H1-Pro”的人形机器人采用了一种基于Transformer架构变体的学习型世界模型。该模型根据一系列动作预测环境的下一状态(物体位置、力、接触点)。这使得机器人能够在执行动作之前“想象”其后果,从而完成诸如在松散碎石上行走或拿起易碎物体而不压碎等任务。该世界模型在NVIDIA Isaac Sim中进行的1000万次模拟交互数据集以及从远程操作机器人车队收集的50万个真实世界片段上进行了训练。关键创新在于使用了对比损失函数,迫使模型区分物理上合理与不合理的未来状态,从而提高了对新颖场景的泛化能力。
大规模模拟到现实迁移
或许最关键的因素是对模拟基础设施的大规模投资。例如,千寻智能使用一个自定义物理引擎完全在模拟环境中训练了其灵巧操作策略,该引擎以1kHz的频率模拟软体动力学和摩擦力。该策略随后被零微调地迁移到物理手上——这一壮举要求模拟达到“数字孪生”级别的精度。该公司在GitHub上开源了其部分模拟框架,仓库名为`qianxun-sim2real`,已获得超过4000颗星。该仓库包含一个由1200个程序生成物体网格组成的库,以及一套用于评估模拟到现实迁移的基准任务。
| 模型/系统 | 参数规模 | 训练数据 | 模拟到现实差距 | 任务成功率(真实环境) |
|---|---|---|---|---|
| 智元LLM控制器 | 7B | 200万真实片段 | 8% | 87%(装配) |
| 宇树H1-Pro世界模型 | 1.5B | 1050万总片段 | 12% | 79%(运动) |
| 千寻灵巧手策略 | 350M | 5000万模拟片段 | 2% | 93%(抓取) |
| 帕西尼触觉分类器 | 12M | 100万触觉帧 | 不适用 | 95%(纹理) |
数据要点: 千寻系统由于高保真物理引擎和庞大的模拟预算,实现了极低的模拟到现实差距(2%),而宇树的世界模型虽然更具通用性,但差距更大。通用性与模拟到现实保真度之间的权衡是一个核心设计矛盾。
关键玩家与案例研究
参加ICRA 2026的中国团队可分为三个战略集群:“硬件优先”的现有企业、“AI原生”初创公司和“全栈”集成商。
硬件优先的现有企业:宇树科技
宇树科技成立于2016年,以高性价比的四足机器人(Go1、B2和H1系列)闻名。在ICRA 2026上,他们发布了H1-Pro人形机器人,定价9万美元——仅为波士顿动力或特斯拉Optimus同类产品价格的一小部分。宇树的策略是将硬件平台商品化,并通过软件实现差异化。他们发布了一个软件开发工具包(SDK),允许第三方开发者在H1-Pro上训练和部署自己的AI模型,从而有效地将机器人转变为通用AI研究平台。该公司声称迄今为止已出货超过1万台四足机器人,创建了一个庞大的数据飞轮。
AI原生初创公司:千寻智能与帕西尼
千寻智能成立于2022年,由前DeepMind和清华大学的研究人员组成,专注于灵巧操作。他们的展台上有一只手可以在30秒内系鞋带、折纸和还原魔方。该公司的秘诀是一种专有的“动作变换器”,它直接从像素数据中学习物体可供性的潜在表示。他们已从红杉中国和高瓴资本获得1.2亿美元的B轮融资。帕西尼是一家衍生公司,专注于触觉传感技术。