BPL语言:生物学迎来Verilog时刻,成为物理AI的桥梁

June 2026
归档:June 2026
恩和科技发布BPL(生物协议语言),这是一套形式化语言与编译器管线,能将自然语言编写的生物学协议转化为机器可执行代码。在300篇《自然· protocols》论文的基准测试中,BPL-COGEN首次通过一致性达95.1%,经过两次编译-仿真循环后提升至98.6%,标志着生物学中物理AI的基础性转变。

几十年来,生物学在形式化方面一直落后于其他工程学科。当芯片设计师在20世纪80年代放弃自然语言规范,转而使用Verilog和VHDL等硬件描述语言时,生物学实验室仍依赖充满散文式描述的协议——这些协议模糊、不可移植,且机器无法直接执行。恩和科技的BPL(生物协议语言)及其配套编译器管线BPL-COGEN旨在弥合这一差距。该系统使用一个300亿参数的微调大语言模型作为“前端翻译器”,将自然语言协议文本转换为BPL代码,随后由确定性编译器验证语法和语义的正确性。仿真引擎则检查逻辑一致性——例如,是否在离心前正确混合了试剂。在300篇《自然· protocols》论文的基准测试中,BPL-COGEN首次通过一致性达95.1%,经过两次编译-仿真循环后提升至98.6%。这一成果标志着生物学实验自动化从“人工解读”迈向“机器原生执行”的关键转折,为物理AI在生物领域的落地铺平了道路。

技术深度解析

BPL并非简单的标记语言,而是一种形式化定义的领域特定语言(DSL),其语法能够完整捕获湿实验协议的语义。语言规范包括以下结构:
- 操作:移液、孵育、离心、热循环、过滤等。
- 参数:体积、温度、持续时间、浓度、pH值、搅拌速度。
- 控制流:条件步骤(例如,“如果OD600 > 0.6,则进行诱导”)、循环(例如,“重复洗涤步骤3次”)、并行执行。
- 依赖关系:显式排序约束、资源分配(使用哪台设备、哪个试剂批次)。
- 单位与容差:严格的单位检查,包含SI前缀和可接受的误差范围。

编译器管线BPL-COGEN包含三个组件:
1. 自然语言到BPL(NL2BPL):一个300亿参数的微调大语言模型(可能基于LLaMA-3或Qwen2架构,但恩和未披露基础模型),用于解析协议文本并生成初始BPL表示。该模型在包含10,000多个注释协议的精选数据集上进行了微调,数据来源包括《自然· protocols》、Bio-Protocol以及内部实验室手册。
2. 确定性BPL编译器:一个基于规则的编译器,用于检查语法、类型一致性、单位兼容性和资源约束。它会标记诸如“温度超出设备限制”或“试剂体积不匹配”等错误。
3. BPL仿真器:一个轻量级执行引擎,针对虚拟实验室模型运行编译后的BPL代码,检测逻辑死锁、资源冲突和时序违规。仿真器可输出逐步执行轨迹。

“生成-验证-修复”循环的工作方式如下:大语言模型生成BPL代码 → 编译器检查并报告错误 → 大语言模型接收错误消息并重新生成 → 仿真器运行并报告逻辑问题 → 大语言模型再次修复。在基准测试中,两次迭代足以达到98.6%的准确率。

性能基准测试

| 指标 | 数值 |
|---|---|
| 基准数据集 | 300篇《自然· protocols》论文(随机抽样,2015-2024年) |
| 首次通过准确率(协议步骤精确匹配) | 95.1% |
| 一次修复循环后准确率(编译器+仿真器反馈) | 97.8% |
| 两次修复循环后准确率 | 98.6% |
| 每个协议的平均BPL代码行数 | 142行 |
| 编译时间(每个协议) | 0.8秒 |
| 仿真时间(每个协议) | 2.3秒 |

数据要点:考虑到自然语言的模糊性,95.1%的首次通过准确率已相当惊人,但真正的价值在于修复循环。仅两次迭代就从95.1%跃升至98.6%,表明大语言模型已学会稳健的错误修正策略。编译和仿真时间总计不到3秒,使其在自动化实验室中具备实时应用的可行性。

GitHub/GitLab仓库:BPL参考实现托管在GitLab上,采用MIT许可证。仓库包含语言规范(EBNF语法)、编译器源代码(Rust)、仿真器(Python)以及NL2BPL模型权重(通过Hugging Face链接)。截至公告发布时,该仓库已获得1200多个星标和47位贡献者,社区正积极讨论增加对微流控和器官芯片协议的支持。

关键参与者与案例研究

恩和科技是一家中国初创公司,成立于2022年,由李伟博士(前某大型合成生物学公司首席科学家)和陈宇欣博士(前Google Brain研究员,专攻代码生成)共同创立。公司已获得4500万美元的A轮融资,由红杉资本中国基金和Matrix Partners领投,BioTrack Capital跟投。团队共85人,包括计算生物学家、编译器工程师和湿实验科学家。

竞品方案对比

| 方案 | 类型 | 关键特性 | 局限性 |
|---|---|---|---|
| BPL(恩和) | 形式化DSL + 大语言模型编译器 | 完整语义捕获、修复循环、MIT开源 | 新语言,生态系统有限 |
| Autoprotocol(Transcriptic/Strateos) | 基于JSON的协议格式 | 机器可读,广泛用于云实验室 | 无自然语言输入,无形式化验证 |
| Opentrons Protocol API | Python库 | 用户基数大,硬件支持广泛 | Python语法,无形式化语义,无仿真 |
| Synthace Antha | 可视化工作流 + DSL | 适合高层设计,仿真能力强 | 专有、昂贵、仅限Synthace硬件 |
| 纯大语言模型方案(GPT-4 + 提示词) | 零样本翻译 | 灵活,无需训练 | 准确率约60-70%,无验证,存在幻觉风险 |

数据要点:BPL通过将形式化语言设计与基于大语言模型的翻译相结合,占据了独特的生态位。Autoprotocol和Opentrons更为成熟,但缺乏语义深度和验证能力。纯大语言模型方案对于生产环境而言过于不可靠。BPL的开源策略可能迅速侵蚀Synthace等专有系统的优势。

时间归档

June 20262149 篇已发布文章

延伸阅读

LiblibAI 3亿美元融资信号:AI应用进入“赚钱”时代,用户数不再是王道AI创作平台LiblibAI的母公司Evoken完成近3亿美元B+轮融资,估值突破20亿美元。本轮由Granite Asia、腾讯和顺为资本联合领投,标志着AI投资者已将可持续营收置于用户增长之上,AI创业的规则正在被彻底改写。微软Copilot Cowork正式上线:DeepSeek V4或成低成本黑马微软正式推出Copilot Cowork,一款能在Outlook、Teams和Excel中自主执行任务的AI代理系统,并引入按用量计费模式。更值得关注的是,微软正在评估将DeepSeek V4作为低成本模型选项——这将是美国科技巨头首次将中Rio-3.5-Open-397B:一个AI克隆体的24小时崛起与陨落一个由巴西市政府支持的AI模型Rio-3.5-Open-397B,凭借397B参数和MIT许可证的宣称迅速走红。然而24小时内,开发者便揭露它不过是阿里巴巴Qwen 3.5与Nex N2 Pro的粗糙融合。这一事件揭示了开源AI领域日益增长从悟道到无界:中国具身智能与世界模型的新蓝图2026北京智源大会今日开幕,发出大胆宣言:静态语言模型的时代已经终结。智源研究院推出“无界”新范式,融合人工智能、物理学与生命科学,由Andrew Barto和Whitfield Diffie等先驱背书。这标志着中国从对话式AI向可行动、

常见问题

这次公司发布“BPL Language: The Verilog Moment for Biology as Physical AI Bridge”主要讲了什么?

For decades, biology has lagged behind other engineering disciplines in formalization. While chip designers abandoned natural-language specifications for hardware description langu…

从“BPL protocol language vs Autoprotocol comparison”看,这家公司的这次发布为什么值得关注?

BPL is not a simple markup language; it is a formally defined domain-specific language (DSL) with a grammar that captures the full semantics of wet-lab protocols. The language specification includes constructs for: Opera…

围绕“Enhe Technology BPL-COGEN open source GitLab”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。