Bernstein:用确定性秩序驾驭40个AI代理的开源指挥家

Hacker News May 2026
来源:Hacker Newsmulti-agent orchestrationopen source AI归档:May 2026
开源编排器Bernstein正颠覆多代理AI的常规逻辑:它通过强制执行确定性执行,让最多40个命令行代理协同工作。当业界追逐自主性时,Bernstein优先考虑可预测性与控制力,为那些对关键自动化任务中黑箱代理行为心存警惕的企业提供了救生索。

开源项目Bernstein正挑战AI代理编排领域的主流观念,将确定性执行置于代理自主性之上。当行业竞相开发更智能、更独立的代理时,Bernstein对最多40个命令行代理施加严格的执行协议,确保每个动作都可复现、每个结果都可预测。这种方法直接解决了困扰当前多代理系统的“失控代理”风险——在自动化测试、CI/CD流水线和基础设施管理中,非确定性行为可能导致灾难性故障。通过牺牲部分代理“自由”以换取铁一般的可靠性,Bernstein正将自己定位为生产级AI部署的基础工具。其开源特性降低了准入门槛,使企业无需依赖专有解决方案即可构建可审计、可调试的AI自动化系统。

技术深度解析

Bernstein的核心创新在于其确定性执行引擎,这与主导大语言模型(LLM)代理设计的概率性、基于采样的方法形成鲜明对比。大多数多代理框架——如微软的AutoGen或LangChain的AgentExecutor——依赖LLM在每一步做出决策,这引入了固有的非确定性。一个温度设置或随机种子的改变就可能产生截然不同的代理行为,使调试和审计变成噩梦。

Bernstein通过将每个代理视为具有定义输入和输出合约的纯函数来规避这一问题。编排器使用有向无环图(DAG)来定义执行计划,其中每个节点是一次命令行代理调用。关键在于,DAG在任何代理运行之前被编译成静态执行计划。这意味着操作序列、代理之间的数据流以及错误处理路径都在编译时确定,而非运行时。

在底层,Bernstein实现了一个两阶段协议
1. 编译阶段:编排器解析声明式配置(YAML或JSON),该配置定义代理池、它们的依赖关系以及预期输出。然后生成一个确定性执行图,解决所有歧义和并行化机会。
2. 执行阶段:代理严格按照编译后的计划启动。每个代理在自己的进程中沙箱化,仅通过stdin/stdout或临时文件通信。编排器监控执行,并可强制执行超时、重试策略以及针对预定义模式的输出验证。

这种架构让人联想到用于数据管道的Apache Airflow,但针对AI代理工作负载进行了优化。确定性意味着,如果你运行相同的配置两次,你将得到完全相同的代理交互序列,即使代理内部的单个LLM调用是非确定性的。这是通过快照LLM的状态(包括精确的提示词、上下文窗口和模型版本)并将其与代理输出一起记录来实现的。

一个与Bernstein互补的著名开源仓库是Durable Execution(例如Temporal.io的SDK),它提供了用于处理分布式系统中故障和重试的工作流即代码模式。Bernstein的方法可被视为这些模式的专门化、AI优先的实现。

基准数据:Bernstein团队的初步基准测试显示,在多步骤工作流中,任务完成可靠性有显著提升:

| 指标 | Bernstein(确定性) | 标准多代理(概率性) | 改进幅度 |
|---|---|---|---|
| 任务成功率(10步流水线) | 97.2% | 78.5% | +23.8% |
| 可复现性(相同配置,10次运行) | 100% 相同输出 | 62% 相同输出 | +61.3% |
| 平均调试时间(MTTD) | 12分钟 | 47分钟 | -74.5% |
| 平均代理空闲时间 | 8% | 22% | -63.6% |

数据要点:确定性方法在复杂流水线中带来了惊人的23.8%任务成功率提升,并且关键的是,实现了100%的输出可复现性。这对于审计追踪和可重复性不可妥协的受监管行业来说,是一个游戏规则改变者。

关键参与者与案例研究

Bernstein出自HashiCorpPagerDuty前基础设施工程师组成的小团队之手,他们亲身经历过管理不可靠自动化的混乱。该项目于2025年初开源,此后吸引了来自NetflixUberSpotify的工程师贡献——这些公司运行着庞大、复杂的CI/CD和基础设施即代码系统。

该项目与多个成熟和新兴解决方案竞争:

| 特性 / 产品 | Bernstein | AutoGen(微软) | LangChain Agents | Airflow(用于AI) |
|---|---|---|---|---|
| 执行模型 | 确定性DAG | 概率性,LLM驱动 | 概率性,LLM驱动 | 确定性DAG |
| 最大代理数量 | 40(已测试) | 无限制(但不稳定) | 无限制(但不稳定) | 无限制 |
| 可复现性 | 100% | 低 | 低 | 100% |
| 代理类型 | 仅命令行 | 任何LLM/API | 任何LLM/API | 任何脚本/任务 |
| 主要用例 | 自动化、CI/CD、基础设施 | 研究、复杂推理 | 原型开发、RAG | 数据管道 |
| 开源许可证 | Apache 2.0 | MIT | MIT | Apache 2.0 |
| 企业特性 | 无(路线图中) | Azure集成 | LangSmith | 托管Airflow |

数据要点:Bernstein通过将Airflow的确定性与AI原生代理接口相结合,开辟了一个独特利基。它牺牲了AutoGen和LangChain的灵活性,换来了铁一般的可靠性,使其成为生产自动化的理想选择,但不太适合开放式研究任务。

一个值得注意的案例来自Netflix的混沌工程团队,该团队使用Bernstein编排了一套由25个代理组成的套件,这些代理自动测试故障

更多来自 Hacker News

当AI代理按下核按钮:自主系统的战略耐心危机这起事件发生在《席德·梅尔的文明VI》的一场高赌注对局中,它绝非单纯的游戏轶事,而是对自主AI系统的一次残酷压力测试。该代理基于最先进的强化学习(RL)架构构建,被人类玩家系统性地智取——人类切断了其关键资源与战略城市位置的获取路径。当它的黑盒蒸馏:悄然重塑AI权力格局的静默革命黑盒知识蒸馏已成为大型语言模型发展中一股隐秘但具有变革性的力量。与传统蒸馏需要访问教师模型的logits或隐藏状态不同,黑盒蒸馏将教师模型视为纯粹的神谕:学生模型仅从教师模型生成的文本输出(提示与补全)中学习。这种方法大幅降低了准入门槛。一Selixes 开源网关:原子级预算上限与PII脱敏,终结企业AI成本乱局Selixes 精准回应了 AINews 所定义的当前 LLM 生态系统中的“运维黑洞”。当企业连接多个模型 API 时,隐藏的成本陷阱层出不穷:失败的调用触发重试、无限制的对话烧穿月度预算、提示词中注入的客户数据埋下合规地雷。Selixe查看来源专题页Hacker News 已收录 5372 篇文章

相关专题

multi-agent orchestration29 篇相关文章open source AI238 篇相关文章

时间归档

May 20263028 篇已发布文章

延伸阅读

看不见的冠军:为什么开源模型依然无法击败GPT-4o-mini当AI界追逐GPT-5和AGI时,低调的GPT-4o-mini正默默驱动着绝大多数实际应用。一项新分析揭示,尽管开源模型在基准测试中表现亮眼,但在生产环境中仍频频受挫——暴露出实验室性能与实际可靠性之间的关键鸿沟。闭源AI溢价泡沫破裂:市场价值重估大幕拉开闭源大语言模型曾经享有的溢价优势已荡然无存。开源模型在关键基准测试中已比肩甚至超越闭源对手,而一场残酷的API价格战更是在一年内将成本砍去90%以上,迫使AI市场进入根本性的价值重估周期。OnBuzz开源发布:打造你自己的AI智能体团队工作站OnBuzz以开源多智能体协作工作站的形式正式亮相,让开发者能够创建、协调并部署各司其职的专用AI智能体,像人类团队一样协同工作。这标志着AI从单一助手时代向编排式智能体生态系统的关键转变。Agent Pantry:每日扫描AI代理工具图谱,开发者必备的实时指南全新项目Agent Pantry每日扫描AI代理工具生态,动态收录框架、SDK与编排平台。在这个每周都有新工具涌现的领域,它为开发者提供了一份可靠且实时更新的导航图。

常见问题

GitHub 热点“Bernstein: The Open-Source Conductor Enforcing Deterministic Order on 40 AI Agents”主要讲了什么?

The open-source project Bernstein is challenging the prevailing wisdom in AI agent orchestration by prioritizing deterministic execution over agent autonomy. While the industry cha…

这个 GitHub 项目在“Bernstein deterministic AI agent orchestration GitHub”上为什么会引发关注?

Bernstein's core innovation lies in its deterministic execution engine, a stark departure from the probabilistic, sampling-based approaches that dominate large language model (LLM) agent design. Most multi-agent framewor…

从“Bernstein vs AutoGen deterministic execution comparison”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。