技术深度解析
从以训练为中心转向以推理为中心的AI,需要对软件和硬件进行重新架构。技术挑战的核心是从统计相关性转向因果性、组合性且计算高效的推断。
算法前沿: 当前的大型语言模型(LLM)擅长在其训练分布内进行模式匹配与插值,但在需要刻意、逐步推理且超出记忆模式的任务上仍显吃力。研究重点正转向促进“系统2”思考的架构。关键方向包括:
* 链式思维与树状思维: 虽然链式思维提示能引发逐步推理,但新架构正将此能力内化。例如Google的Gemini及其原生规划模块,以及OpenAI传闻中的Q*研究,都指向具备内部深思循环的模型。
* 神经符号集成: 纯神经方法缺乏形式化保证。混合系统旨在将神经网络的学习能力与符号AI的逻辑和规则相结合,例如Yoshua Bengio通过System 2 Capsule Networks所探索的方向。开源项目DeepProbLog是一个显著例子,它结合了概率逻辑编程与深度学习,尽管扩展性仍是挑战。
* 循环记忆与状态空间模型: 推理通常需要在长上下文中保持和操作状态。像Mamba(一种选择性状态空间模型)以及具备外部记忆库的模型(如MemGPT)因其高效的长上下文推理潜力而备受关注。Mamba的GitHub仓库已获得超过15,000颗星,反映出社区对Transformer之外、适用于重推理任务替代方案的浓厚兴趣。
* 因果表示学习: 由Bernhard Schölkopf和Judea Pearl等研究者开创,该领域旨在让模型学习能编码因果关系的表示,而不仅仅是关联。这对于稳健的规划和干预预测至关重要。
推理专用硬件: 训练硬件为大规模、批量并行的矩阵运算优化。而推理,尤其是推理,有不同的需求:更低延迟、更高内存带宽,以及高效处理不规则、序列化的计算图。
* 英伟达的Blackwell与推理微服务: Blackwell GPU架构不仅是提供更高FLOPS;它引入了专用的Transformer引擎和解压缩引擎,专门用于加速大模型的推理。更重要的是,英伟达的NIM和TensorRT-LLM软件栈经过优化,旨在最小化复杂推理链的延迟并最大化吞吐量,使得多步骤智能体工作流在经济上变得可行。
* 专用推理芯片: 在英伟达领先的同时,像Groq(以其用于确定性低延迟LLM推理的LPU著称)和SambaNova等公司正以新颖的数据流架构攻占推理问题。成功的基准不再仅仅是每秒生成的令牌数,而是端到端完成复杂推理任务的成本与速度。
| 推理基准测试 | GPT-4 表现 | 下一代推理模型目标 | 关键指标 |
|------------------------|----------------|------------------------------------|----------------------------------|
| GSM8K (数学) | ~92% | >99%(具备完美推理轨迹) | 解答准确率与步骤正确性 |
| HumanEval (代码) | ~67% | >90%(在复杂、多文件任务上) | 复杂程序的Pass@1率 |
| ARC-AGI (抽象) | ~85% | >95% | 对新奇谜题的少样本泛化能力 |
| 规划 (如ALFWorld) | ~40-50% 成功率 | >80% 成功率 | 交互环境中的任务完成率 |
数据要点: 当前顶级模型在需要深度、可靠推理的基准测试上已进入平台期。这4000亿美元投资的目标正是实现10-30个百分点的提升,这需要架构创新,而不仅仅是规模扩张。
关键参与者与案例研究
推理战争呈现出清晰的二分格局:算法先锋对阵基础设施巨头。
OpenAI:AGI豪赌
OpenAI的战略是全力押注算法优势以实现AGI。其2000亿美元的资金储备(可能来自与微软的合作及未来收入流)将用于:
1. 大规模强化学习与合成数据: 训练推理模型可能需要前所未有的大量高质量推理轨迹。OpenAI将大力投资于提升至新规模的基于人类反馈的强化学习(RLHF),并利用现有模型生成合成数据以创建推理课程。
2. 专有架构: 超越Transformer。关于Q*的传闻暗示其正研究用于规划的基于模型的强化学习,可能将LLM与学习得到的世界模拟器相结合。
3. 垂直整合: 构建或控制专用计算基础设施,可能包括为推理优化的定制芯片,以确保其前沿研究不受制于外部硬件供应链。