具身认知革命:为什么AI智能体必须拥有身体才能思考

Hacker News June 2026
来源:Hacker NewsAI agentsworld modelsrobotics归档:June 2026
“缸中之脑”的时代正在终结。越来越多的研究指出,真正的自主智能无法仅从文本中涌现——它需要一个能够感知、行动并通过物理互动学习的身体。这场具身认知革命正从根基上重塑人工智能。

数十年来,人工智能一直被当作纯粹的软件问题——一个脱离肉体的思维处理符号。但一波前沿研究正在挑战这一正统观念。具身认知运动认为,智能并非抽象计算的产物,而是从智能体的身体、其感觉运动系统与物理世界的动态耦合中涌现。这对旨在自主行动的AI智能体具有深远影响。当前的大型语言模型(LLM)能写诗,却难以预测打翻一杯水的结果——因为它们从未与杯子进行过物理互动。世界模型与机器人的融合提供了一条前进之路:通过闭合感觉运动回路,未来的AI智能体将从直接的物理经验中学习,而非仅仅依赖静态数据集。

技术深度解析

具身认知的核心论点是:身体塑造了心智。用AI术语来说,这意味着智能体的物理形态——其传感器、执行器和形态结构——直接约束并赋能了它能发展的智能类型。这是对以大型语言模型(LLM)为主导范式的直接挑战,后者将智能视为文本上的纯统计模式匹配问题。

感觉运动回路

具身AI的核心是感觉运动回路:智能体通过传感器(摄像头、触觉、本体感觉)感知世界,处理这些信息,然后通过执行器(电机、夹爪、轮子)采取行动。行动的结果改变世界,然后世界再次被感知。这个连续的反馈回路就是学习的引擎。与从静态数据集学习的LLM不同,具身智能体从自身行动的后果中学习。

世界模型:内部模拟器

一个关键的技术组件是“世界模型”——世界如何运行的内部表征。这不是语言模型,而是关于物理、物体恒存性和因果关系的预测模型。世界模型允许智能体在执行动作之前模拟可能的行动,从而实现规划和推理。该领域一个里程碑式的开源项目是Google DeepMind的Danijar Hafner开发的DreamerV3。DreamerV3仅从像素和奖励中学习世界模型,然后利用该模型“想象”未来的轨迹,并完全在其潜在空间内训练策略。它在从Atari游戏到机器人操作的各种控制任务上达到了最先进的性能。该仓库(github.com/danijar/dreamerv3)已获得超过5000颗星,并持续作为基础性参考。

架构:从Transformer到主动感知

具身架构与纯Transformer堆栈有根本不同。一个典型的具身智能体可能结合:
- 视觉编码器(例如Vision Transformer或ResNet)处理摄像头输入。
- 本体感觉编码器处理关节角度和力。
- 动作解码器输出电机指令。
- 世界模型根据当前状态和动作预测下一状态。
- 记忆模块(通常是LSTM或Transformer)处理时间依赖性。

一个关键见解是:感知不是被动的。在具身系统中,智能体必须主动决定看向何处或如何移动其传感器以收集信息。这被称为“主动感知”,是生物智能的标志,而脱离肉体的LLM完全缺乏这一点。

具身AI的基准测试

衡量具身AI的进展极其困难,因为任务是物理性的且多样化。然而,一些标准化基准已经出现:

| 基准 | 描述 | 关键指标 | 最高分(截至2025年第二季度) |
|---|---|---|---|
| MetaWorld | 50项机器人操作任务(推、拉、组装) | 成功率 | 95%(DreamerV3) |
| Habitat 2.0 | 具身智能体在3D室内场景中的导航与交互 | 成功率 / SPL | 78%(SkillNet) |
| MineRL | 智能体从原始像素学习玩Minecraft | 钻石获取率 | 12%(VPT) |
| CALVIN | 带语言指令的长时域操作 | 任务完成率 | 85%(RT-2 + MoE) |

数据要点: 尽管在单个基准上的成功率很高,但没有一个智能体能在所有基准上表现出色。模拟与现实之间的差距(sim-to-real迁移)仍然是最大的技术障碍。最好的模拟器仍然无法捕捉真实世界的摩擦、变形和随机性。

关键参与者与案例研究

具身AI的格局是科技巨头、敏捷初创公司和学术实验室的战场。策略分歧明显。

巨头:Google DeepMind、Tesla和NVIDIA

- Google DeepMind是智力引擎。其RT-2和RT-X模型代表了一种混合方法:它们在互联网规模的数据上训练一个大型视觉-语言-动作模型,然后在机器人数据上进行微调。结果是一个能够遵循语言指令执行新颖任务的模型,例如“拿起那只灭绝的动物”(一个恐龙玩具)。他们的策略是利用大规模计算来弥合语言理解与物理行动之间的鸿沟。
- Tesla采取了截然不同的方法。其Optimus机器人从设计之初就面向大规模制造。Tesla的优势在于垂直整合:他们控制硬件(执行器、传感器、电池)、软件(FSD计算机、神经网络)和制造过程。其端到端学习方法,类似于他们的自动驾驶堆栈,旨在从像素到电机扭矩学习一切,而不依赖显式的世界模型。
- NVIDIA是“卖铲子的人”。其Isaac Sim平台是训练具身智能体的领先模拟环境。他们还提供Jetson

更多来自 Hacker News

Tokenomics Foundation:拯救企业AI于财务崩溃的隐形成本控制引擎AI热潮背后隐藏着一场成本危机。当头条新闻为模型突破欢呼时,企业团队正被不可预测的基础设施账单淹没。一次针对复杂任务的GPT-4级推理运行可能花费500至2000美元,而中型企业每月的云端AI支出往往超过10万美元,却缺乏清晰的ROI追踪。AI编程对决:Opus 4.8 vs GPT 5.5,上下文理解才是王道一项针对Opus 4.8、GPT 5.5、Opus 4.7和Composer 2.5在真实开源代码库上的全面基准测试,给出了一个明确的结论:AI编程军备竞赛正在进入新阶段。GPT 5.5擅长从零生成代码并解决复杂逻辑谜题,而Opus 4.8Hive Trust 用密码学签名终结AI性能谎言:每个推理原语都不可篡改在AI推理的高风险领域,性能基准测试已成为未经核实的声明的战场。Hive Trust 作为一股颠覆性力量,提供了一个平台,用 Ed25519 签名对每个推理原语进行密码学签名,将结果与运行时环境和配置绑定。这种方法受区块链“不要信任,要验证查看来源专题页Hacker News 已收录 4175 篇文章

相关专题

AI agents801 篇相关文章world models136 篇相关文章robotics28 篇相关文章

时间归档

June 2026268 篇已发布文章

延伸阅读

OpenAI 9.4亿美元押注Isara:战略转向具身AI,剑指物理世界主导权OpenAI以9400万美元投资机器人初创公司Isara,标志着其战略重心已超越数字领域,向物理世界实质性扩张。此举旨在将大语言模型根植于实体经验,构建一个能在现实世界中训练高级AI智能体的统一平台,是AI发展优先级的一次根本性转变。从语言模型到世界模型:自主AI智能体的下一个十年被动语言模型的时代正在终结。未来十年,AI将借助通过多模态学习理解物理现实的“世界模型”,转型为主动的自主智能体。这一根本性变革将重塑所有领域的人机协作模式。从聊天机器人到控制器:AI智能体如何成为现实世界的操作系统人工智能领域正经历一场从静态语言模型到动态控制系统的范式转移。这些自主智能体能够感知复杂环境、制定计划并执行行动,推动AI从顾问角色转变为从机器人系统到企业工作流的实际操控者。Mercury 2对决PinchBench:扩散模型如何重塑具身AI的首次真实试炼名为PinchBench的全新基准测试正将AI模型从聊天窗口推向模拟3D世界,考验其理解、规划与行动能力。基于扩散架构的模型Mercury 2在此测试中的表现,标志着一个关键的行业转折:AI的前沿正由具身推理与可靠物理行动定义,而不仅仅是对

常见问题

这次模型发布“Embodied Cognition Revolution: Why AI Agents Must Have Bodies to Think”的核心内容是什么?

For decades, artificial intelligence has been treated as a purely software problem—a disembodied mind processing symbols. But a wave of cutting-edge research is challenging this or…

从“What is embodied cognition in AI and why does it matter?”看,这个模型发布为什么重要?

The central thesis of embodied cognition is that the body shapes the mind. In AI terms, this means that an agent's physical form—its sensors, actuators, and morphology—directly constrains and enables the kinds of intelli…

围绕“How do world models work in robotics?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。