技术深度解析
John Jumper加入Anthropic,不是为了打造一个更好的聊天机器人;而是为了构建一个能够推理物理世界的AI。核心的技术挑战在于从预测序列中下一个token的“语言模型”,转向预测物理系统下一个状态的“世界模型”。AlphaFold的成功建立在一个新颖架构之上:它将进化生物学(多序列比对)与注意力机制(Transformer)相结合,从氨基酸序列预测蛋白质结构。其关键创新是“Evoformer”模块,它允许模型迭代地精炼蛋白质的3D表征,学习支配折叠的复杂物理约束。
Anthropic的计划是将这种物理推理能力整合到其“Constitutional AI”框架中。一个Anthropic智能体不再只是生成文本,而是可以被赋予这样的任务:“设计一种与SARS-CoV-2刺突蛋白具有高亲和力的蛋白质。”该智能体随后需要:1) 生成候选序列,2) 预测其3D结构(使用类似AlphaFold的模型),3) 模拟结合能(使用基于物理的模型如Rosetta或分子动力学),4) 根据结果进行迭代。这需要不同AI系统的深度集成:用于序列设计的生成模型、用于结构预测的预测模型,以及用于验证的模拟引擎。
一个关键组件是“世界模型”本身。Anthropic一直在开发一个名为“mechanistic interpretability”的概念,旨在理解神经网络的内部表征。通过将其应用于生物学世界模型,他们有可能构建出一个不仅预测蛋白质结构、还能理解*为什么*特定突变会导致疾病的AI。这是超越AlphaFold的一步——AlphaFold是一个强大的预测器,但缺乏因果理解。
这里有几个相关的开源项目。OpenFold仓库(github.com/aqlaboratory/openfold)是AlphaFold2的开源复现,已获得超过2500颗星。它允许研究人员在不依赖Google基础设施的情况下训练和微调模型。另一个关键项目是Meta AI开发的ESMFold(github.com/facebookresearch/esm),它采用语言模型方法直接从序列预测蛋白质结构,以更快的推理时间实现了具有竞争力的精度。对于分子动力学,OpenMM(github.com/openmm/openmm)是一个用于模拟分子系统的高性能工具包。Anthropic可以利用这些开源工具为其智能体构建一个模块化的“生物学栈”。
| 模型 | 参数量 | 推理时间(每个蛋白质) | 精度(TM-score) | 训练数据 |
|---|---|---|---|---|
| AlphaFold2 | ~93M | ~10分钟 | 0.89 | PDB(~17万结构) |
| OpenFold | ~93M | ~10分钟 | 0.88 | PDB |
| ESMFold | ~3B | ~10秒 | 0.80 | UniRef50(~6500万序列) |
| RoseTTAFold | ~30M | ~15分钟 | 0.85 | PDB |
数据要点: ESMFold相比AlphaFold2实现了60倍加速,精度仅下降10%,使其成为智能体框架中高通量筛选的理想选择。Anthropic很可能会采用混合方法:使用ESMFold进行快速候选生成,使用AlphaFold2/OpenFold进行最终验证。
关键人物与案例研究
John Jumper是AI驱动结构生物学领域最杰出的人物。他在Google DeepMind领导AlphaFold团队,于2021年发布了AlphaFold2,被誉为蛋白质折叠问题的“解决方案”。AlphaFold蛋白质结构数据库现已包含超过2亿个预测结构,覆盖几乎所有已知蛋白质。这对科学界来说是一个变革性的资源。
由前OpenAI研究员Dario Amodei和Daniela Amodei创立的Anthropic,将自己定位为“安全AI”公司。其旗舰产品Claude是一个使用“Constitutional AI”训练的大型语言模型——该技术利用一套原则指导模型行为,使其更有帮助、更无害、更诚实。然而,Anthropic一直在悄悄构建其在AI for science方面的能力。2023年,他们发表了一篇关于“AI for Biology”的论文,概述了利用AI设计新蛋白质和理解细胞系统的愿景。Jumper的加入是迄今为止最明确的信号,表明这是其战略重点。
与此同时,Google DeepMind并未止步不前。他们发布了AlphaFold3,能够预测蛋白质复合物(例如与DNA、RNA或小分子结合的蛋白质)的结构。他们还推出了AlphaMissense,一个预测错义突变致病性的模型。然而,Jumper的离开是一个重大打击。这引发了关于DeepMind留住顶尖人才能力的质疑,尤其是当竞争对手提供更多股权和自主权时。
| 公司 | 关键产品 | 重点领域 | 人才 | 资金/收入 |
|---|---|---|---|---|