技术深度解析
Noam Brown的专业领域位于博弈论与深度强化学习的交叉点,最著名的成果包括Suphx(超人级麻将AI)和Pluribus(在六人无限注德州扑克中击败顶级职业选手的扑克AI)。他的核心贡献是将反事实遗憾最小化(CFR)与深度神经网络相结合,用于解决不完全信息博弈。在OpenAI,他预计将把这些技术应用于多智能体系统,其中多个AI模型在真实世界环境中交互、协商或竞争,例如自动交易、供应链物流,甚至复杂的对话系统。
从工程角度来看,将CFR与大型语言模型(LLM)集成是一项重大挑战。当前的LLM(如GPT-4o或Claude 3.5)基于自回归下一个token预测运行,这本质上是一种单智能体、完全信息范式(模型能看到所有之前的token)。多智能体场景要求模型推理隐藏意图、虚张声势和战略欺骗——这些能力是标准微调或RLHF难以轻易灌输的。Noam的方法可能涉及分层强化学习,其中高层策略(使用类似CFR的算法训练)从LLM生成的动作中进行选择,或者采用带对手建模的自对弈,即两个或多个LLM实例相互对弈以生成训练数据。
对此方向感兴趣的人可以参考一个关键的开源资源:OpenSpiel仓库(Google DeepMind),它提供了一系列博弈论算法和环境。该仓库在GitHub上拥有超过4500颗星,支持CFR、深度CFR和神经虚拟自对弈。另一个相关仓库是RLCard(GitHub,约2000颗星),它提供了一套用于纸牌游戏强化学习的工具包,并可适配多智能体研究。然而,将这些算法扩展到现代LLM的万亿参数规模,仍然是一个未解决的工程问题——在拥有数十亿状态的博弈树上运行完整CFR的计算成本高得令人望而却步。
| 模型 | 参数(估计) | MMLU分数 | 多智能体基准(提议) | 训练计算成本 |
|---|---|---|---|---|
| GPT-4o | ~200B | 88.7 | 无 | 每次运行1亿美元以上 |
| Claude 3.5 | ~200B | 88.3 | 无 | 每次运行8000万美元以上 |
| Gemini Ultra | ~1.5T(MoE) | 90.0 | 无 | 每次运行2亿美元以上 |
| Noam的多智能体系统(假设) | 待定 | 无 | 预期对单智能体胜率>85% | 未知,可能超过5000万美元 |
数据要点: 目前,在开放环境中的多智能体AI性能方面,尚无标准化基准。上表显示,虽然前沿模型在静态知识测试(MMLU)上表现相当,但它们处理战略交互的能力尚未被衡量。Noam的工作可能填补这一空白,但计算成本惊人——可能为OpenAI本已庞大的烧钱速度再添数十亿美元。
关键玩家与案例研究
OpenAI的招聘策略反映了AI行业的一个更广泛趋势:通过收购明星研究员来彰显技术优势。值得注意的例子包括:
- Google DeepMind 聘请了David Silver(强化学习先驱)和Demis Hassabis(CEO、联合创始人)。他们在AlphaGo和AlphaFold上的工作树立了AI突破的标准,但DeepMind从未盈利,依赖Alphabet的雄厚资金。
- Anthropic 挖来了Dario Amodei和几位前OpenAI研究员。Anthropic对AI安全的关注吸引了大量资金(总计76亿美元),但其收入仍然微不足道。
- Meta AI 聘请了Yann LeCun(副总裁兼首席AI科学家)和Joelle Pineau(AI研究副总裁)。Meta的AI部门是一个成本中心,但它支持了大规模的广告定向和内容审核。
OpenAI的案例之所以独特,是因为它既是炒作最厉害的AI公司,也是财务失衡最极端的公司。对关键玩家财务状况的比较揭示了问题的规模:
| 公司 | 年收入(估计) | 年亏损(估计) | 估值 | 关键人才 |
|---|---|---|---|---|
| OpenAI | 34亿美元 | 2090亿美元 | 800亿美元以上 | Noam Brown, Sam Altman, Ilya Sutskever(前) |
| Anthropic | 5亿美元 | 27亿美元 | 184亿美元 | Dario Amodei, Jared Kaplan |
| Google DeepMind | 20亿美元(内部) | 50亿美元以上(估计) | 无(Alphabet一部分) | Demis Hassabis, David Silver |
| Meta AI | 0(内部) | 100亿美元以上(估计) | 1.2万亿美元(Meta) | Yann LeCun, Joelle Pineau |
数据要点: OpenAI的亏损与收入之比比任何竞争对手都差一个数量级。虽然Anthropic和DeepMind也在亏损,但它们的亏损与其规模成正比。OpenAI的2090亿美元亏损表明存在结构性低效——很可能由云计算合同(Azure)和激进的基建支出驱动——这不是聘请一位研究员(无论多么杰出)就能解决的。
行业影响与市场动态
市场对N的即时反应