Bernstein:用确定性秩序驾驭40个AI代理的开源指挥家

Hacker News May 2026
来源:Hacker Newsopen-source AI归档:May 2026
开源编排器Bernstein正颠覆多代理AI的常规逻辑:它通过强制执行确定性执行,让最多40个命令行代理协同工作。当业界追逐自主性时,Bernstein优先考虑可预测性与控制力,为那些对关键自动化任务中黑箱代理行为心存警惕的企业提供了救生索。

开源项目Bernstein正挑战AI代理编排领域的主流观念,将确定性执行置于代理自主性之上。当行业竞相开发更智能、更独立的代理时,Bernstein对最多40个命令行代理施加严格的执行协议,确保每个动作都可复现、每个结果都可预测。这种方法直接解决了困扰当前多代理系统的“失控代理”风险——在自动化测试、CI/CD流水线和基础设施管理中,非确定性行为可能导致灾难性故障。通过牺牲部分代理“自由”以换取铁一般的可靠性,Bernstein正将自己定位为生产级AI部署的基础工具。其开源特性降低了准入门槛,使企业无需依赖专有解决方案即可构建可审计、可调试的AI自动化系统。

技术深度解析

Bernstein的核心创新在于其确定性执行引擎,这与主导大语言模型(LLM)代理设计的概率性、基于采样的方法形成鲜明对比。大多数多代理框架——如微软的AutoGen或LangChain的AgentExecutor——依赖LLM在每一步做出决策,这引入了固有的非确定性。一个温度设置或随机种子的改变就可能产生截然不同的代理行为,使调试和审计变成噩梦。

Bernstein通过将每个代理视为具有定义输入和输出合约的纯函数来规避这一问题。编排器使用有向无环图(DAG)来定义执行计划,其中每个节点是一次命令行代理调用。关键在于,DAG在任何代理运行之前被编译成静态执行计划。这意味着操作序列、代理之间的数据流以及错误处理路径都在编译时确定,而非运行时。

在底层,Bernstein实现了一个两阶段协议
1. 编译阶段:编排器解析声明式配置(YAML或JSON),该配置定义代理池、它们的依赖关系以及预期输出。然后生成一个确定性执行图,解决所有歧义和并行化机会。
2. 执行阶段:代理严格按照编译后的计划启动。每个代理在自己的进程中沙箱化,仅通过stdin/stdout或临时文件通信。编排器监控执行,并可强制执行超时、重试策略以及针对预定义模式的输出验证。

这种架构让人联想到用于数据管道的Apache Airflow,但针对AI代理工作负载进行了优化。确定性意味着,如果你运行相同的配置两次,你将得到完全相同的代理交互序列,即使代理内部的单个LLM调用是非确定性的。这是通过快照LLM的状态(包括精确的提示词、上下文窗口和模型版本)并将其与代理输出一起记录来实现的。

一个与Bernstein互补的著名开源仓库是Durable Execution(例如Temporal.io的SDK),它提供了用于处理分布式系统中故障和重试的工作流即代码模式。Bernstein的方法可被视为这些模式的专门化、AI优先的实现。

基准数据:Bernstein团队的初步基准测试显示,在多步骤工作流中,任务完成可靠性有显著提升:

| 指标 | Bernstein(确定性) | 标准多代理(概率性) | 改进幅度 |
|---|---|---|---|
| 任务成功率(10步流水线) | 97.2% | 78.5% | +23.8% |
| 可复现性(相同配置,10次运行) | 100% 相同输出 | 62% 相同输出 | +61.3% |
| 平均调试时间(MTTD) | 12分钟 | 47分钟 | -74.5% |
| 平均代理空闲时间 | 8% | 22% | -63.6% |

数据要点:确定性方法在复杂流水线中带来了惊人的23.8%任务成功率提升,并且关键的是,实现了100%的输出可复现性。这对于审计追踪和可重复性不可妥协的受监管行业来说,是一个游戏规则改变者。

关键参与者与案例研究

Bernstein出自HashiCorpPagerDuty前基础设施工程师组成的小团队之手,他们亲身经历过管理不可靠自动化的混乱。该项目于2025年初开源,此后吸引了来自NetflixUberSpotify的工程师贡献——这些公司运行着庞大、复杂的CI/CD和基础设施即代码系统。

该项目与多个成熟和新兴解决方案竞争:

| 特性 / 产品 | Bernstein | AutoGen(微软) | LangChain Agents | Airflow(用于AI) |
|---|---|---|---|---|
| 执行模型 | 确定性DAG | 概率性,LLM驱动 | 概率性,LLM驱动 | 确定性DAG |
| 最大代理数量 | 40(已测试) | 无限制(但不稳定) | 无限制(但不稳定) | 无限制 |
| 可复现性 | 100% | 低 | 低 | 100% |
| 代理类型 | 仅命令行 | 任何LLM/API | 任何LLM/API | 任何脚本/任务 |
| 主要用例 | 自动化、CI/CD、基础设施 | 研究、复杂推理 | 原型开发、RAG | 数据管道 |
| 开源许可证 | Apache 2.0 | MIT | MIT | Apache 2.0 |
| 企业特性 | 无(路线图中) | Azure集成 | LangSmith | 托管Airflow |

数据要点:Bernstein通过将Airflow的确定性与AI原生代理接口相结合,开辟了一个独特利基。它牺牲了AutoGen和LangChain的灵活性,换来了铁一般的可靠性,使其成为生产自动化的理想选择,但不太适合开放式研究任务。

一个值得注意的案例来自Netflix的混沌工程团队,该团队使用Bernstein编排了一套由25个代理组成的套件,这些代理自动测试故障

更多来自 Hacker News

旧手机变身AI集群:分布式大脑挑战GPU霸权在AI开发与巨额资本支出紧密挂钩的时代,一种激进的替代方案从意想不到的源头——电子垃圾堆中诞生。研究人员成功协调了数百台旧手机组成的分布式集群——这些设备通常因无法运行现代应用而被丢弃——来执行大型语言模型的推理任务。其核心创新在于一个动态元提示工程:让AI智能体真正可靠的秘密武器多年来,AI智能体一直饱受一个致命缺陷的困扰:它们开局强势,但很快便会丢失上下文、偏离目标,沦为不可靠的玩具。业界尝试过扩大模型规模、增加训练数据,但真正的解决方案远比这些更优雅。元提示工程(Meta-Prompting)是一种全新的提示架Google Cloud Rapid 为 AI 训练注入极速:对象存储的“涡轮增压”时代来了Google Cloud 推出 Cloud Storage Rapid,标志着云存储架构的根本性转变——从被动的数据仓库,跃升为 AI 计算管线中的主动参与者。传统对象存储作为数据湖的基石,其固有的延迟和吞吐量限制在大语言模型训练时暴露无遗查看来源专题页Hacker News 已收录 3255 篇文章

相关专题

open-source AI177 篇相关文章

时间归档

May 20261212 篇已发布文章

延伸阅读

2026年4月:AI模型发布演变为每周军备竞赛的月份2026年4月将被铭记为AI模型发布从季度事件演变为每周风暴的月份。AINews深度剖析了这场战略闪电战——全新架构、推理突破与多模态集成,一夜之间重塑了竞争格局。智能体社区崛起:2026年,自主AI成为数字公民到2026年,AI智能体社区已从概念演变为现实——自主数字实体彼此协作、谈判,并形成微型经济体。这标志着超越聊天机器人的范式转变,重新定义了人类与AI作为数字世界共同公民的互动方式。AI代理舰队急需一个驾驶舱:下一个十亿美元级别的界面机遇当服务型企业将AI代理部署从单个机器人扩展到协调舰队时,一个刺眼的空白浮现:人类缺乏一个专为管理、监控和干预数十个并行AI代理而设计的界面。这个缺失的“驾驶舱”,如今已成为应用AI领域最紧迫的基础设施问题。美国全球警告DeepSeek点燃AI冷战:科技脱钩升级为外交对决美国国务院史无前例地向盟友发出全球警告,指控中国AI公司DeepSeek窃取知识产权。这一外交攻势将AI军备竞赛从企业间的摩擦升级为全面的地缘政治对抗,全球AI生态系统面临沿地缘政治路线分裂的威胁。

常见问题

GitHub 热点“Bernstein: The Open-Source Conductor Enforcing Deterministic Order on 40 AI Agents”主要讲了什么?

The open-source project Bernstein is challenging the prevailing wisdom in AI agent orchestration by prioritizing deterministic execution over agent autonomy. While the industry cha…

这个 GitHub 项目在“Bernstein deterministic AI agent orchestration GitHub”上为什么会引发关注?

Bernstein's core innovation lies in its deterministic execution engine, a stark departure from the probabilistic, sampling-based approaches that dominate large language model (LLM) agent design. Most multi-agent framewor…

从“Bernstein vs AutoGen deterministic execution comparison”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。