BPL语言：生物学迎来Verilog时刻，成为物理AI的桥梁

几十年来，生物学在形式化方面一直落后于其他工程学科。当芯片设计师在20世纪80年代放弃自然语言规范，转而使用Verilog和VHDL等硬件描述语言时，生物学实验室仍依赖充满散文式描述的协议——这些协议模糊、不可移植，且机器无法直接执行。恩和科技的BPL（生物协议语言）及其配套编译器管线BPL-COGEN旨在弥合这一差距。该系统使用一个300亿参数的微调大语言模型作为“前端翻译器”，将自然语言协议文本转换为BPL代码，随后由确定性编译器验证语法和语义的正确性。仿真引擎则检查逻辑一致性——例如，是否在离心前正确混合了试剂。在300篇《自然· protocols》论文的基准测试中，BPL-COGEN首次通过一致性达95.1%，经过两次编译-仿真循环后提升至98.6%。这一成果标志着生物学实验自动化从“人工解读”迈向“机器原生执行”的关键转折，为物理AI在生物领域的落地铺平了道路。

技术深度解析

BPL并非简单的标记语言，而是一种形式化定义的领域特定语言（DSL），其语法能够完整捕获湿实验协议的语义。语言规范包括以下结构：
- 操作：移液、孵育、离心、热循环、过滤等。
- 参数：体积、温度、持续时间、浓度、pH值、搅拌速度。
- 控制流：条件步骤（例如，“如果OD600 > 0.6，则进行诱导”）、循环（例如，“重复洗涤步骤3次”）、并行执行。
- 依赖关系：显式排序约束、资源分配（使用哪台设备、哪个试剂批次）。
- 单位与容差：严格的单位检查，包含SI前缀和可接受的误差范围。

编译器管线BPL-COGEN包含三个组件：
1. 自然语言到BPL（NL2BPL）：一个300亿参数的微调大语言模型（可能基于LLaMA-3或Qwen2架构，但恩和未披露基础模型），用于解析协议文本并生成初始BPL表示。该模型在包含10,000多个注释协议的精选数据集上进行了微调，数据来源包括《自然· protocols》、Bio-Protocol以及内部实验室手册。
2. 确定性BPL编译器：一个基于规则的编译器，用于检查语法、类型一致性、单位兼容性和资源约束。它会标记诸如“温度超出设备限制”或“试剂体积不匹配”等错误。
3. BPL仿真器：一个轻量级执行引擎，针对虚拟实验室模型运行编译后的BPL代码，检测逻辑死锁、资源冲突和时序违规。仿真器可输出逐步执行轨迹。

“生成-验证-修复”循环的工作方式如下：大语言模型生成BPL代码 → 编译器检查并报告错误 → 大语言模型接收错误消息并重新生成 → 仿真器运行并报告逻辑问题 → 大语言模型再次修复。在基准测试中，两次迭代足以达到98.6%的准确率。

性能基准测试：

| 指标 | 数值 |
|---|---|
| 基准数据集 | 300篇《自然· protocols》论文（随机抽样，2015-2024年） |
| 首次通过准确率（协议步骤精确匹配） | 95.1% |
| 一次修复循环后准确率（编译器+仿真器反馈） | 97.8% |
| 两次修复循环后准确率 | 98.6% |
| 每个协议的平均BPL代码行数 | 142行 |
| 编译时间（每个协议） | 0.8秒 |
| 仿真时间（每个协议） | 2.3秒 |

数据要点：考虑到自然语言的模糊性，95.1%的首次通过准确率已相当惊人，但真正的价值在于修复循环。仅两次迭代就从95.1%跃升至98.6%，表明大语言模型已学会稳健的错误修正策略。编译和仿真时间总计不到3秒，使其在自动化实验室中具备实时应用的可行性。

GitHub/GitLab仓库：BPL参考实现托管在GitLab上，采用MIT许可证。仓库包含语言规范（EBNF语法）、编译器源代码（Rust）、仿真器（Python）以及NL2BPL模型权重（通过Hugging Face链接）。截至公告发布时，该仓库已获得1200多个星标和47位贡献者，社区正积极讨论增加对微流控和器官芯片协议的支持。

关键参与者与案例研究

恩和科技是一家中国初创公司，成立于2022年，由李伟博士（前某大型合成生物学公司首席科学家）和陈宇欣博士（前Google Brain研究员，专攻代码生成）共同创立。公司已获得4500万美元的A轮融资，由红杉资本中国基金和Matrix Partners领投，BioTrack Capital跟投。团队共85人，包括计算生物学家、编译器工程师和湿实验科学家。

竞品方案对比：

| 方案 | 类型 | 关键特性 | 局限性 |
|---|---|---|---|
| BPL（恩和） | 形式化DSL + 大语言模型编译器 | 完整语义捕获、修复循环、MIT开源 | 新语言，生态系统有限 |
| Autoprotocol（Transcriptic/Strateos） | 基于JSON的协议格式 | 机器可读，广泛用于云实验室 | 无自然语言输入，无形式化验证 |
| Opentrons Protocol API | Python库 | 用户基数大，硬件支持广泛 | Python语法，无形式化语义，无仿真 |
| Synthace Antha | 可视化工作流 + DSL | 适合高层设计，仿真能力强 | 专有、昂贵、仅限Synthace硬件 |
| 纯大语言模型方案（GPT-4 + 提示词） | 零样本翻译 | 灵活，无需训练 | 准确率约60-70%，无验证，存在幻觉风险 |

数据要点：BPL通过将形式化语言设计与基于大语言模型的翻译相结合，占据了独特的生态位。Autoprotocol和Opentrons更为成熟，但缺乏语义深度和验证能力。纯大语言模型方案对于生产环境而言过于不可靠。BPL的开源策略可能迅速侵蚀Synthace等专有系统的优势。

时间归档

延伸阅读

常见问题

这次公司发布“BPL Language: The Verilog Moment for Biology as Physical AI Bridge”主要讲了什么？

For decades, biology has lagged behind other engineering disciplines in formalization. While chip designers abandoned natural-language specifications for hardware description langu…

从“BPL protocol language vs Autoprotocol comparison”看，这家公司的这次发布为什么值得关注？

BPL is not a simple markup language; it is a formally defined domain-specific language (DSL) with a grammar that captures the full semantics of wet-lab protocols. The language specification includes constructs for: Opera…

围绕“Enhe Technology BPL-COGEN open source GitLab”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。