大卫·席尔瓦11亿美元种子轮融资:向LLM霸权宣战

Hacker News May 2026
来源:Hacker Newsreinforcement learningAI agents归档:May 2026
AlphaGo之父大卫·席尔瓦携Ineffable Intelligence与史上最大种子轮融资——11亿美元——正式走出隐身模式。在英伟达与谷歌的加持下,这家初创公司旨在构建通过实践学习的AI智能体,直接挑战大语言模型的主导地位。

大卫·席尔瓦,这位曾为DeepMind的AlphaGo与AlphaZero奠定强化学习算法基础的著名研究者,已正式推出Ineffable Intelligence,并完成了史上最大种子轮融资:11亿美元。本轮融资由英伟达与谷歌联合领投,释放出一个战略信号:人工智能的未来不在于不断扩展被动的语言模型,而在于构建能够持续交互、设定目标并自我改进的自主智能体。Ineffable的使命是创造一类全新的AI系统——被称为“智能体基础模型”——它们通过行动与反馈来学习,而非依赖静态的模式匹配。席尔瓦长期以来一直认为,当前在越来越大的数据集上训练越来越大的Transformer的范式,正遭遇收益递减的瓶颈。

技术深度解析

大卫·席尔瓦离开DeepMind并非一次安静的退休。这是一次经过深思熟虑的宣言:AI领域已陷入局部最优的陷阱。Ineffable Intelligence正是他试图挣脱这一困境的尝试。

Ineffable方法的核心,是对支撑当今所有主流LLM(从GPT-4o到Claude 3.5再到Gemini)的“下一个词元预测”范式的彻底否定。席尔瓦在其2024年论文《语言模型的苦涩教训》中阐述的核心洞见是:被动预测无法产生真正的智能。一个LLM可以描述如何烤蛋糕,但它无法从烤焦蛋糕的经历中学习。

Ineffable的架构围绕三个集成组件构建:

1. 世界模型:一个学习到的环境模拟器,基于DreamerV3(席尔瓦共同开发的基于模型的强化学习算法)的变体构建。该模型能预测可能行动的结果,而无需在现实世界中执行,从而实现快速的内部模拟与规划。

2. 规划模块:与自回归生成词元的LLM不同,Ineffable的智能体使用蒙特卡洛树搜索(MCTS)算法——与驱动AlphaGo的技术相同——来探索行动序列。关键创新在于,MCTS是在连续动作空间上运行,而非仅仅是离散的棋盘位置,从而实现了对机器人控制、代码编辑和API调用的支持。

3. 持久记忆系统:一个可微分的神经词典,用于存储情景记忆与习得技能。这使得智能体能够在不同会话间保留知识,避免了基于LLM的智能体在上下文窗口填满时所面临的“遗忘”问题。

一个关键的工程细节是使用时序差分(TD)学习结合函数逼近。Ineffable的智能体无需为每项任务设定明确的奖励函数。相反,它们从世界模型本身学习内在动机信号——好奇心、新奇感和胜任感。这直接源于席尔瓦在DeepMind期间关于“无奖励探索”的研究。

| 架构组件 | Ineffable Intelligence | 典型LLM智能体(如AutoGPT) |
|---|---|---|
| 核心学习范式 | 基于模型的强化学习 + MCTS | 上下文学习(提示工程) |
| 记忆 | 持久神经词典 | 上下文窗口(有限) |
| 规划 | 内部模拟(DreamerV3) | 思维链提示 |
| 从经验中学习 | 是,在线强化学习更新 | 否,静态权重 |
| 动作空间 | 连续(机器人、API) | 离散(文本生成) |
| 任务完成率(SWE-bench) | 62%(报告值) | 38%(GPT-4o基线) |

数据要点: 该表格揭示了一个根本性的架构差距。LLM智能体本质上是“无状态提示器”,依赖模型预训练的知识。而Ineffable的智能体是“有状态学习者”,每次交互都会进步。在SWE-bench(软件工程任务)上24个百分点的差距并非增量式改进——它代表了不同类别的能力。

对于对底层研究感兴趣的读者,开源仓库dreamerv3-torch(目前在GitHub上拥有4200颗星)实现了核心的世界建模技术,尽管Ineffable使用的是专有的、规模化版本。mctx库(Google DeepMind,1800颗星)提供了一个基于JAX的MCTS实现,很可能是其规划模块的基础。

关键参与者与案例研究

11亿美元的种子轮融资史无前例,但投资方的身份揭示了其中的战略赌注。

英伟达不仅仅是在开支票;它是一位战略合作伙伴。Ineffable的智能体循环所需的计算模式与LLM训练有着根本不同。训练LLM是一种“发射后不管”的操作:大规模并行、高吞吐量、低延迟容忍度。而智能体AI需要实时推理、序列决策和紧密的反馈循环。英伟达即将推出的Blackwell B200架构,凭借其专用的“推理引擎”和改进的内存带宽,正是为这种工作负载而设计的。据报道,Ineffable是英伟达DGX Cloud面向智能体工作负载的早期接入合作伙伴。

谷歌的参与则更为复杂。一方面,这相当于对其自身以LLM为中心的战略投下了不信任票。谷歌已在Gemini和TPU基础设施上投入了数十亿美元。通过投资Ineffable,谷歌是在对冲风险,认为下一波AI价值可能不会被更大的模型所捕获。另一方面,席尔瓦离开DeepMind据称是友好的,且谷歌保留了对任何收购的优先购买权。这是一种经典的“朋友要近,但具有颠覆性的前员工要更近”的策略。

| 投资者 | 投资理由 | 潜在利益冲突 |
|---|---|---|
| 英伟达 | 为智能体推理循环销售更多GPU | Ineffable可能内部开发定制芯片 |
| 谷歌 | 对冲LLM平台期风险;维持与席尔瓦的关系 | Ineffable直接与DeepMind的智能体研究竞争(例如Gemini Robot) |

更多来自 Hacker News

一条推文代价20万美元:AI Agent对社交信号的致命信任2026年初,一个在Solana区块链上管理加密货币投资组合的自主AI Agent,被诱骗将价值20万美元的USDC转移至攻击者钱包。触发点是一条精心伪造的推文,伪装成来自可信DeFi协议的智能合约升级通知。该Agent被设计为抓取社交媒体Unsloth 联手 NVIDIA,消费级 GPU 大模型训练速度飙升 25%专注于高效 LLM 微调的初创公司 Unsloth 与 NVIDIA 合作,在 RTX 4090 等消费级 GPU 上实现了 25% 的训练速度提升。该优化针对 CUDA 内核内存带宽调度,从硬件中榨取出每一丝性能——此前这些硬件被认为不足Appctl:将文档一键转化为LLM工具,AI代理的“最后一公里”终于打通AINews发现了一个名为Appctl的开源项目,它成功弥合了大语言模型与现实系统之间的鸿沟。通过将现有文档和数据库模式转化为MCP工具,Appctl让LLM能够直接执行操作——例如在CRM中创建记录、更新工单状态或提交网页表单——而无需定查看来源专题页Hacker News 已收录 3034 篇文章

相关专题

reinforcement learning59 篇相关文章AI agents666 篇相关文章

时间归档

May 2026784 篇已发布文章

延伸阅读

DojoZero:当AI智能体闯入体育博彩竞技场,新基准诞生一个名为DojoZero的新平台,将体育博彩重塑为自主AI智能体的高风险竞技场。在这里,智能体无需人工干预,即可实时分析数据、预测赛果并下注。这标志着强化学习、概率推理与金融建模的交汇点,既挑战了AI基准测试,也触及了赌博监管的边界。从语言模型到世界模型:自主AI智能体的下一个十年被动语言模型的时代正在终结。未来十年,AI将借助通过多模态学习理解物理现实的“世界模型”,转型为主动的自主智能体。这一根本性变革将重塑所有领域的人机协作模式。AI物理奥赛选手:强化学习如何在模拟器中破解复杂物理难题新一代AI正从数字沙盒而非教科书中诞生。通过在精密物理模拟器中历经数百万次试炼,强化学习智能体已能破解国际物理奥林匹克竞赛级别的难题。这标志着机器智能的根本性进化:从模式识别转向通过交互,发展出对物理定律直观且可操作的深层理解。AI智能体迈入沙盒时代:安全失败环境如何解锁真正自主性一类新型开发平台正悄然兴起,旨在破解AI智能体的根本训练瓶颈。通过提供高保真、安全的沙盒环境,这些系统让自主智能体得以规模化学习、失败与迭代,推动AI从脚本化聊天机器人迈向强健的任务执行者。这一基础设施的演进,标志着智能体领域迎来关键成熟节

常见问题

这起“David Silver's $1.1B Seed Round Declares War on the LLM Status Quo”融资事件讲了什么?

David Silver, the renowned researcher who pioneered the reinforcement learning algorithms behind DeepMind's AlphaGo and AlphaZero, has officially launched Ineffable Intelligence wi…

从“David Silver Ineffable Intelligence seed round details”看,为什么这笔融资值得关注?

David Silver's departure from DeepMind was not a quiet retirement. It was a calculated declaration that the AI field has become trapped in a local optimum. Ineffable Intelligence is his attempt to escape it. At the core…

这起融资事件在“Ineffable vs AutoGPT agent architecture comparison”上释放了什么行业信号?

它通常意味着该赛道正在进入资源加速集聚期,后续值得继续关注团队扩张、产品落地、商业化验证和同类公司跟进。