技术深度解析
大卫·席尔瓦离开DeepMind并非一次安静的退休。这是一次经过深思熟虑的宣言:AI领域已陷入局部最优的陷阱。Ineffable Intelligence正是他试图挣脱这一困境的尝试。
Ineffable方法的核心,是对支撑当今所有主流LLM(从GPT-4o到Claude 3.5再到Gemini)的“下一个词元预测”范式的彻底否定。席尔瓦在其2024年论文《语言模型的苦涩教训》中阐述的核心洞见是:被动预测无法产生真正的智能。一个LLM可以描述如何烤蛋糕,但它无法从烤焦蛋糕的经历中学习。
Ineffable的架构围绕三个集成组件构建:
1. 世界模型:一个学习到的环境模拟器,基于DreamerV3(席尔瓦共同开发的基于模型的强化学习算法)的变体构建。该模型能预测可能行动的结果,而无需在现实世界中执行,从而实现快速的内部模拟与规划。
2. 规划模块:与自回归生成词元的LLM不同,Ineffable的智能体使用蒙特卡洛树搜索(MCTS)算法——与驱动AlphaGo的技术相同——来探索行动序列。关键创新在于,MCTS是在连续动作空间上运行,而非仅仅是离散的棋盘位置,从而实现了对机器人控制、代码编辑和API调用的支持。
3. 持久记忆系统:一个可微分的神经词典,用于存储情景记忆与习得技能。这使得智能体能够在不同会话间保留知识,避免了基于LLM的智能体在上下文窗口填满时所面临的“遗忘”问题。
一个关键的工程细节是使用时序差分(TD)学习结合函数逼近。Ineffable的智能体无需为每项任务设定明确的奖励函数。相反,它们从世界模型本身学习内在动机信号——好奇心、新奇感和胜任感。这直接源于席尔瓦在DeepMind期间关于“无奖励探索”的研究。
| 架构组件 | Ineffable Intelligence | 典型LLM智能体(如AutoGPT) |
|---|---|---|
| 核心学习范式 | 基于模型的强化学习 + MCTS | 上下文学习(提示工程) |
| 记忆 | 持久神经词典 | 上下文窗口(有限) |
| 规划 | 内部模拟(DreamerV3) | 思维链提示 |
| 从经验中学习 | 是,在线强化学习更新 | 否,静态权重 |
| 动作空间 | 连续(机器人、API) | 离散(文本生成) |
| 任务完成率(SWE-bench) | 62%(报告值) | 38%(GPT-4o基线) |
数据要点: 该表格揭示了一个根本性的架构差距。LLM智能体本质上是“无状态提示器”,依赖模型预训练的知识。而Ineffable的智能体是“有状态学习者”,每次交互都会进步。在SWE-bench(软件工程任务)上24个百分点的差距并非增量式改进——它代表了不同类别的能力。
对于对底层研究感兴趣的读者,开源仓库dreamerv3-torch(目前在GitHub上拥有4200颗星)实现了核心的世界建模技术,尽管Ineffable使用的是专有的、规模化版本。mctx库(Google DeepMind,1800颗星)提供了一个基于JAX的MCTS实现,很可能是其规划模块的基础。
关键参与者与案例研究
11亿美元的种子轮融资史无前例,但投资方的身份揭示了其中的战略赌注。
英伟达不仅仅是在开支票;它是一位战略合作伙伴。Ineffable的智能体循环所需的计算模式与LLM训练有着根本不同。训练LLM是一种“发射后不管”的操作:大规模并行、高吞吐量、低延迟容忍度。而智能体AI需要实时推理、序列决策和紧密的反馈循环。英伟达即将推出的Blackwell B200架构,凭借其专用的“推理引擎”和改进的内存带宽,正是为这种工作负载而设计的。据报道,Ineffable是英伟达DGX Cloud面向智能体工作负载的早期接入合作伙伴。
谷歌的参与则更为复杂。一方面,这相当于对其自身以LLM为中心的战略投下了不信任票。谷歌已在Gemini和TPU基础设施上投入了数十亿美元。通过投资Ineffable,谷歌是在对冲风险,认为下一波AI价值可能不会被更大的模型所捕获。另一方面,席尔瓦离开DeepMind据称是友好的,且谷歌保留了对任何收购的优先购买权。这是一种经典的“朋友要近,但具有颠覆性的前员工要更近”的策略。
| 投资者 | 投资理由 | 潜在利益冲突 |
|---|---|---|
| 英伟达 | 为智能体推理循环销售更多GPU | Ineffable可能内部开发定制芯片 |
| 谷歌 | 对冲LLM平台期风险;维持与席尔瓦的关系 | Ineffable直接与DeepMind的智能体研究竞争(例如Gemini Robot) |