屏幕之外:AI的下一个战场在物理世界

June 2026
embodied AIroboticsautonomous driving归档:June 2026
在2026年智源大会上,一句断言刺破了行业泡沫:“AI的下一场战争不在屏幕上打响。”AINews深度解析从大语言模型到具身智能的板块迁移,探讨AI进入物理世界所面临的技术、经济与安全挑战。

2026年智源大会为AI行业敲响了一记清醒的警钟。尽管大语言模型在文本、图像和代码领域已游刃有余,但在混乱、不可预测的物理世界中,其表现仍如蹒跚学步的婴儿。大会最振聋发聩的声音是:AI的下一个前沿不再是更多的token或像素,而是真实世界的交互——机器人、自动驾驶和工业自动化。从“数字智能”到“具身智能”的转型,要求对模型架构、训练范式和商业模式进行根本性重构。基于API的按token计费模式正让位于硬件加订阅的混合模式;安全关切也从内容审核升级为物理伤害预防。AINews深入剖析了技术瓶颈——从数据稀缺到仿真到现实的鸿沟,并梳理了特斯拉、Google DeepMind、英伟达和OpenAI等巨头的战略布局。

技术深度解析

从屏幕AI到物理世界AI的转变,并非现有能力的简单延伸,而是需要一套根本不同的技术栈。核心挑战在于弥合离散、符号化的文本世界与连续、嘈杂、高维的物理世界之间的鸿沟。

架构与算法

传统LLM基于token序列运作,对三维空间、材料属性或因果关系没有内在理解。要在物理世界中运行,模型必须整合多种模态——视觉、触觉、本体感知——并学会输出连续的控制信号,而非仅仅是文本。

一个领先的方法是视觉-语言-动作(VLA)模型,以Google DeepMind的RT-2和开源项目OpenVLA(70亿参数,GitHub星标超5万)为代表。这些模型接收摄像头图像和自然语言指令(例如“拿起红色杯子”),直接输出电机控制指令。其关键创新在于,在机器人演示数据上对预训练的视觉-语言模型进行微调,从而将语义知识有效迁移到物理动作中。

然而,VLA面临一个关键瓶颈:数据稀缺。文本数据浩如烟海,但高质量的机器人演示数据收集成本高昂且速度缓慢。这催生了对仿真到现实迁移的研究。英伟达的Isaac Sim和开源物理引擎MuJoCo被用于生成海量合成训练数据集。挑战在于,在仿真中训练的模型往往因“现实鸿沟”——摩擦力、光照和物体动力学的差异——而在真实世界中失败。领域随机化(在训练中改变仿真参数)等技术已成为标准做法,但鸿沟依然是一大障碍。

物理性能基准测试

MMLU等标准LLM基准在此已不适用。评估物理智能的新基准正在涌现:

| 基准 | 聚焦领域 | 关键指标 | 示例任务 |
|---|---|---|---|
| Meta-World | 多任务机器人操作 | 50项任务的成功率 | 开门、推方块、抓取与放置 |
| CALVIN | 长时域语言条件任务 | 任务完成率 | “煮咖啡”(5个以上动作的序列) |
| Habitat 3.0 | 具身导航与交互 | 按路径长度加权的成功率 | 找到一个人并递给他一个物体 |
| Waymo Open Motion Dataset | 自动驾驶规划 | 位移误差、碰撞率 | 在复杂交叉口预测车辆轨迹 |

数据要点: 当前最先进的模型在Meta-World的50项任务上能达到约60-70%的成功率,但在CALVIN的长时域任务上降至30%以下。这暴露了顺序推理和记忆方面的根本弱点——模型可以拿起杯子,但会忘记之后需要将其放入水槽。

另一个关键技术领域是因果推理。LLM擅长相关性,但难以处理因果关系。一个训练来按下按钮以点亮灯光的机器人,可能学会按下按钮是原因,但如果按钮被移动,它就会失败。MIT CSAIL的研究人员提出了因果世界模型,该模型显式学习环境的底层动力学,从而实现对新配置的零样本适应。这是一个活跃领域,像Causal-Imitation(1.2K星标)这样的仓库在从交互数据中学习因果图方面展示了有希望的结果。

关键玩家与案例研究

物理AI的竞赛不仅是研究问题,更是一个战略路径各异的竞争战场。

科技巨头

| 公司 | 方法 | 关键产品/平台 | 战略 |
|---|---|---|---|
| 特斯拉 | 垂直整合 | Optimus人形机器人、全自动驾驶 | 基于海量真实车队数据的端到端神经网络;掌控硬件和软件 |
| Google DeepMind | 基础模型+机器人 | RT-2、AutoRT、Gemini Robotics | 利用大规模多模态模型实现泛化;开源研究以吸引人才 |
| 英伟达 | 基础设施提供商 | Isaac Sim、Jetson Orin、GR00T | 出售“铲子和镐”——为整个行业提供仿真、硬件和开发者工具 |
| OpenAI | 战略投资 | 投资Figure AI、1X Technologies | 押注外部机器人公司,同时内部专注于模型开发 |

案例研究:Figure AI与OpenAI

由OpenAI、微软和英伟达支持的Figure AI,展示了将LLM与人形机器人结合的最显著进展。其Figure 01机器人由OpenAI模型驱动,可以在执行递苹果等任务的同时进行完整对话。关键洞察:LLM负责高层推理和语言理解,而一个独立的底层策略网络负责精确的电机控制。这种模块化方法目前最为实用,但会引入延迟和协调问题。

相关专题

embodied AI168 篇相关文章robotics31 篇相关文章autonomous driving40 篇相关文章

时间归档

June 20261294 篇已发布文章

延伸阅读

从L9到Livis:理想汽车押注具身智能,重新定义汽车为物理智能平台理想汽车正式从自动驾驶转向具身智能,发布首款AI系统Livis。这一战略转变将车辆从交通工具重新定义为具备感知、推理与行动能力的物理智能体,标志着AI竞争进入新前沿。AI大分流:具身智能 vs. 语言模型——谁将定义智能的未来?一夜之间,两笔重磅融资揭开了人工智能领域的根本性裂痕。一位领袖押注于能触摸、能移动的机器人;另一位则倾心于能思考、能规划的语言模型。AINews深度剖析这两条通往智能未来的竞争路径。中国机器人劳动力:从炫技表演到工厂大脑的务实转身中国机器人产业正经历一场静默革命:重心从炫目的人形机器人演示,转向以数据驱动的实用型“工人”机器人,它们正走进工厂和厨房。AINews 深入调查这场由真实劳动数据驱动的“大脑训练”如何催生新一代适应性强、成本效益高的自动化方案。具身智能的GPT时刻:为何仓库机器人还无法驾驭工厂车间具身智能正从受控的仓库环境迈向动态的工厂车间,但真正的“GPT时刻”——一个无需微调即可跨任务泛化的单一模型——仍遥不可及。AINews深度剖析技术飞跃、商业鸿沟,以及为何行业需要耐心而非炒作。

常见问题

这次模型发布“Beyond the Screen: Why AI's Next War Is in the Physical World”的核心内容是什么?

The 2026 Zhiyuan Conference delivered a sobering reality check for the AI industry. While large language models have mastered text, images, and code, their performance in the messy…

从“What is the difference between embodied AI and traditional LLMs?”看,这个模型发布为什么重要?

The shift from screen-based AI to physical-world AI is not a simple extension of existing capabilities; it requires a fundamentally different stack. The core challenge is bridging the gap between the discrete, symbolic w…

围绕“Which companies are leading in physical AI for robotics?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。