技术深度解析
字节跳动与Anthropic在药物发现领域的底层架构截然不同,反映了各自的核心战略赌注。
字节跳动的路径:推荐引擎变身药物猎手
字节跳动的秘密武器是其专有的推荐系统基础设施,最初为TikTok和抖音构建。该系统每天处理PB级用户交互数据,使用融合文本、图像、视频和序列数据的多模态Transformer。在药物发现中,字节跳动将这一架构重新用于分析异构生物医学数据:基因组序列、蛋白质结构(来自AlphaFold2和ESMFold)、化学库、专利文件和临床试验记录。其内部称为BioRec(尚未公开发布)的模型,使用级联注意力层来学习跨模态关联——例如,将特定遗传变异与临床记录中提及的副作用联系起来,或将分子结构与真实世界数据库中的患者结果相关联。关键的工程创新在于大规模使用负采样(从推荐系统借鉴而来),以从嘈杂的高维数据中高效挖掘罕见但有意义的生物信号。这使得字节跳动能够以据称比传统学术筛选快10,000倍的速度生成候选药物-靶点假设,尽管假阳性率仍是严格保密的秘密。
Anthropic的路径:用于药物安全的宪法AI
Anthropic在其宪法AI框架基础上构建,该框架训练模型生成符合一套人类编写原则的输出。对于药物发现,Anthropic将其扩展为一个名为BioConstitutional AI的系统,其中模型受到源自FDA指导文件、良好临床实践标准和已知毒性数据库的原则约束。核心模型(很可能是Claude的变体)在精选的生物医学文献(PubMed、ClinicalTrials.gov、DrugBank)上进行微调,然后通过与药理学家和监管专家的强化学习人类反馈进行对齐。关键的技术差异化在于Anthropic对带有溯源链的思维链推理的关注:当模型预测分子的毒性或药物的疗效时,它必须输出一个可追溯的证据链,引用具体研究、分子特征或先例案例。这不仅仅是学术练习——它直接回应了FDA对用于监管提交的任何AI系统的模型可解释性日益增长的要求。Anthropic已在GitHub上开源了其可解释性工具包的部分内容,仓库名为`anthropic-pharma-interp`(目前获得2100颗星),提供了用于药物-靶点相互作用模型中的显著性映射和概念归因的工具。
性能基准:速度 vs 信任
| 指标 | 字节跳动 BioRec(估计) | Anthropic BioCAI(估计) | 传统高通量筛选 |
|---|---|---|---|
| 生成1000个候选分子的时间 | 4小时 | 48小时 | 2-4周 |
| 靶点结合实验中的命中率 | 12% | 8% | 0.1-1% |
| 模型可解释性评分(1-10) | 2 | 9 | 不适用 |
| 监管审计准备度 | 低 | 高 | 高 |
| 每个候选分子的成本(美元) | $0.02 | $0.50 | $10,000以上 |
数据要点: 字节跳动的速度优势毋庸置疑,但其低可解释性评分意味着其候选分子在临床验证中面临更陡峭的路径。Anthropic较慢但透明的方法可能产生更少的初始命中,但具有更高的监管准备度,可能在后期的开发阶段节省数年时间。
关键玩家与案例研究
字节跳动的生物技术孵化器
字节跳动已悄然成立了一个专门的生命科学部门——ByteDance BioLabs,总部位于上海,并在马萨诸塞州剑桥设有卫星办公室。该部门由前Broad Institute的李伟博士领导,他带来了基于CRISPR的功能基因组学专业知识。字节跳动的策略是与中国的合同研究组织(如药明康德和康龙化成)建立快速的数据共享合作伙伴关系,以计算积分换取对专有检测数据的访问权。其最先进的程序针对非酒精性脂肪性肝炎(NASH)的一种新机制——这是一个传统方法失败的著名难治疾病领域。在一次闭门研讨会上展示的早期结果表明,他们已识别出一个靶点,该靶点调节了一个以前被忽视的代谢途径,利用了他们对5000万用户的电子健康记录和可穿戴设备数据的跨模态挖掘。
Anthropic的制药联盟
Anthropic采取了不同的合作模式,与优先考虑监管合规的西方制药巨头结盟。其旗舰合作是与罗氏在2026年初宣布的,共同开发一个用于预测药物性肝损伤(DILI)的AI系统——这是临床试验失败的主要原因。