屏幕之外：AI的下一个战场在物理世界

2026年智源大会为AI行业敲响了一记清醒的警钟。尽管大语言模型在文本、图像和代码领域已游刃有余，但在混乱、不可预测的物理世界中，其表现仍如蹒跚学步的婴儿。大会最振聋发聩的声音是：AI的下一个前沿不再是更多的token或像素，而是真实世界的交互——机器人、自动驾驶和工业自动化。从“数字智能”到“具身智能”的转型，要求对模型架构、训练范式和商业模式进行根本性重构。基于API的按token计费模式正让位于硬件加订阅的混合模式；安全关切也从内容审核升级为物理伤害预防。AINews深入剖析了技术瓶颈——从数据稀缺到仿真到现实的鸿沟，并梳理了特斯拉、Google DeepMind、英伟达和OpenAI等巨头的战略布局。

技术深度解析

从屏幕AI到物理世界AI的转变，并非现有能力的简单延伸，而是需要一套根本不同的技术栈。核心挑战在于弥合离散、符号化的文本世界与连续、嘈杂、高维的物理世界之间的鸿沟。

架构与算法

传统LLM基于token序列运作，对三维空间、材料属性或因果关系没有内在理解。要在物理世界中运行，模型必须整合多种模态——视觉、触觉、本体感知——并学会输出连续的控制信号，而非仅仅是文本。

一个领先的方法是视觉-语言-动作（VLA）模型，以Google DeepMind的RT-2和开源项目OpenVLA（70亿参数，GitHub星标超5万）为代表。这些模型接收摄像头图像和自然语言指令（例如“拿起红色杯子”），直接输出电机控制指令。其关键创新在于，在机器人演示数据上对预训练的视觉-语言模型进行微调，从而将语义知识有效迁移到物理动作中。

然而，VLA面临一个关键瓶颈：数据稀缺。文本数据浩如烟海，但高质量的机器人演示数据收集成本高昂且速度缓慢。这催生了对仿真到现实迁移的研究。英伟达的Isaac Sim和开源物理引擎MuJoCo被用于生成海量合成训练数据集。挑战在于，在仿真中训练的模型往往因“现实鸿沟”——摩擦力、光照和物体动力学的差异——而在真实世界中失败。领域随机化（在训练中改变仿真参数）等技术已成为标准做法，但鸿沟依然是一大障碍。

物理性能基准测试

MMLU等标准LLM基准在此已不适用。评估物理智能的新基准正在涌现：

| 基准 | 聚焦领域 | 关键指标 | 示例任务 |
|---|---|---|---|
| Meta-World | 多任务机器人操作 | 50项任务的成功率 | 开门、推方块、抓取与放置 |
| CALVIN | 长时域语言条件任务 | 任务完成率 | “煮咖啡”（5个以上动作的序列） |
| Habitat 3.0 | 具身导航与交互 | 按路径长度加权的成功率 | 找到一个人并递给他一个物体 |
| Waymo Open Motion Dataset | 自动驾驶规划 | 位移误差、碰撞率 | 在复杂交叉口预测车辆轨迹 |

数据要点： 当前最先进的模型在Meta-World的50项任务上能达到约60-70%的成功率，但在CALVIN的长时域任务上降至30%以下。这暴露了顺序推理和记忆方面的根本弱点——模型可以拿起杯子，但会忘记之后需要将其放入水槽。

另一个关键技术领域是因果推理。LLM擅长相关性，但难以处理因果关系。一个训练来按下按钮以点亮灯光的机器人，可能学会按下按钮是原因，但如果按钮被移动，它就会失败。MIT CSAIL的研究人员提出了因果世界模型，该模型显式学习环境的底层动力学，从而实现对新配置的零样本适应。这是一个活跃领域，像Causal-Imitation（1.2K星标）这样的仓库在从交互数据中学习因果图方面展示了有希望的结果。

关键玩家与案例研究

物理AI的竞赛不仅是研究问题，更是一个战略路径各异的竞争战场。

科技巨头

| 公司 | 方法 | 关键产品/平台 | 战略 |
|---|---|---|---|
| 特斯拉 | 垂直整合 | Optimus人形机器人、全自动驾驶 | 基于海量真实车队数据的端到端神经网络；掌控硬件和软件 |
| Google DeepMind | 基础模型+机器人 | RT-2、AutoRT、Gemini Robotics | 利用大规模多模态模型实现泛化；开源研究以吸引人才 |
| 英伟达 | 基础设施提供商 | Isaac Sim、Jetson Orin、GR00T | 出售“铲子和镐”——为整个行业提供仿真、硬件和开发者工具 |
| OpenAI | 战略投资 | 投资Figure AI、1X Technologies | 押注外部机器人公司，同时内部专注于模型开发 |

案例研究：Figure AI与OpenAI

由OpenAI、微软和英伟达支持的Figure AI，展示了将LLM与人形机器人结合的最显著进展。其Figure 01机器人由OpenAI模型驱动，可以在执行递苹果等任务的同时进行完整对话。关键洞察：LLM负责高层推理和语言理解，而一个独立的底层策略网络负责精确的电机控制。这种模块化方法目前最为实用，但会引入延迟和协调问题。

时间归档

延伸阅读

常见问题

这次模型发布“Beyond the Screen: Why AI's Next War Is in the Physical World”的核心内容是什么？

The 2026 Zhiyuan Conference delivered a sobering reality check for the AI industry. While large language models have mastered text, images, and code, their performance in the messy…

从“What is the difference between embodied AI and traditional LLMs?”看，这个模型发布为什么重要？

The shift from screen-based AI to physical-world AI is not a simple extension of existing capabilities; it requires a fundamentally different stack. The core challenge is bridging the gap between the discrete, symbolic w…

围绕“Which companies are leading in physical AI for robotics?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。