技术深度解析
这个故事的核心不是一个人,而是一场范式转移。John Jumper的AlphaFold不仅仅解决了一个难题——它引入了一种全新的架构原则,而Anthropic正要将这一原则武器化。
2021年发表的AlphaFold 2采用了创新的Evoformer架构,将蛋白质序列视为一种语言,将其三维结构视为一项翻译任务。该模型通过一系列轴向注意力模块处理多重序列比对(MSAs)和成对残基相互作用,迭代优化三维坐标表征。其关键洞见在于:生物结构并非静态输出,而是一个迭代精炼的过程——这一概念可以直接迁移到世界模型如何推理动态系统上。
Jumper在DeepMind的团队还开发了AlphaFold 3,将方法扩展至预测蛋白质与DNA、RNA及小分子之间的相互作用——本质上是一个通用对接模拟器。该模型采用基于扩散的生成头(类似于图像生成中使用的技术),输出分子构象的概率分布,而非单一确定性结构。
Anthropic现在准备将这些生物推理能力整合到其Claude模型家族中。技术路径清晰:将分子相互作用视为与文本、图像和代码并列的新模态。Claude现有的“宪法式AI”架构——通过一套书面原则引导模型行为——可以扩展至包含生物约束条件(例如,“不得建议已知有毒的分子结构”)。
一个相关的开源项目是Meta AI的ESM-2,这是一个基于2.5亿条序列训练的蛋白质语言模型,在零样本预测方面达到了最先进水平。该仓库(facebook/esm)已获得超过7000颗星,证明基于Transformer的蛋白质模型可以大规模训练。Anthropic可以利用类似架构,但会采用其品牌标志性的安全优先训练机制。
| 模型 | 训练数据 | 参数量 | 关键创新 | 发布年份 |
|---|---|---|---|---|
| AlphaFold 2 | 约17万蛋白质结构 | 约9300万(Evoformer) | 轴向注意力迭代精炼 | 2021 |
| AlphaFold 3 | 约20万结构+小分子 | 约2亿(估计) | 基于扩散的结构生成 | 2024 |
| ESM-2 | 2.5亿条序列 | 30亿 | 蛋白质语言模型,零样本预测 | 2022 |
| RoseTTAFold | 约10万结构 | 约5000万 | 三轨道架构(序列、距离、坐标) | 2021 |
数据要点: AlphaFold 2仍是单链蛋白质结构预测的黄金标准(在CASP14上中位GDT评分>90),但AlphaFold 3对多分子复合物建模的能力才是真正的前沿。Anthropic面临的挑战不是复制这一能力——而是将其整合进一个通用推理系统。
关键玩家与案例分析
John Jumper是核心人物。这位芝加哥大学博士在2017年加入DeepMind之前从事计算物理学研究,他将AlphaFold团队从一个边缘项目带到了《自然》杂志封面。他的离开直接暴露了DeepMind无法将其研究商业化的短板。尽管DeepMind剥离出了Isomorphic Labs(一家药物发现公司),但至今未能从AlphaFold中产出一款重磅产品。据报道,Jumper对转化速度缓慢感到沮丧。
Anthropic是受益方。这家由前OpenAI研究员创立的公司已融资超过70亿美元,其中包括来自Google和Amazon的重大投资。其Claude模型以“宪法式AI”和“无害性”训练等安全特性著称。但在原始基准性能上,该公司一直难以与OpenAI的GPT-4和Google的Gemini拉开差距。Jumper的加入为Anthropic提供了一个独特叙事:它正在构建理解生物学而非仅仅理解文本的AI。
Google DeepMind是输家。合并后的实体正面临人才流失。Jumper是2024年继联合创始人Mustafa Suleyman离职创办Inflection AI(后被微软收购)之后第二位重要离职者。DeepMind以发表论文而非产品为优先的研究文化,与Google对收入的需求日益冲突。该公司已宣布一项新的“万物AlphaFold”计划,但缺少Jumper,它缺乏远见卓识的领导力。
| 公司 | 关键AI产品 | 生物学AI能力 | 年度AI研发支出(估计) | 关键局限 |
|---|---|---|---|---|
| Anthropic | Claude 3.5 Sonnet | 无(Jumper加入前) | 约20亿美元 | 尚无生物数据管道 |
| Google DeepMind | Gemini, AlphaFold 3 | 世界领先的蛋白质预测 | 约100亿美元(含Google AI整体) | 商业化记录不佳 |
| OpenAI | GPT-4o, DALL-E 3 | 无(公开层面) | 约50亿美元 | 无生物学聚焦 |
| Meta AI | Llama 3, ESM-2 | 强大的开源蛋白质模型 | 约30亿美元 | 无安全优先方法 |
数据要点: Anthropic的研发支出仅为Google的零头,但它现在是唯一一个拥有明确生物学战略的前沿实验室。