AI代理团队为何弃Kafka选Postgres做消息队列?一场关于可靠性的基础设施革命

Hacker News May 2026
来源:Hacker Newsagent orchestration归档:May 2026
一支工程团队打破行业惯例,在PostgreSQL上为AI代理构建了自定义消息队列,而非采用Kafka或RabbitMQ。这一决策将操作简洁性、ACID事务和紧密数据模型集成置于峰值吞吐量之上,折射出AI代理基础设施设计的整体成熟化趋势。

越来越多的AI代理部署正在放弃Kafka、RabbitMQ等专用消息代理,转而直接在PostgreSQL上构建队列。一支工程团队最近公开的架构设计,将这一趋势具象化:他们选择Postgres,看中的是其事务保障、状态重放能力,以及消除独立中间件系统的优势。虽然Kafka在每秒数百万事件处理上表现卓越,但AI代理——尤其是那些需要长时间运行任务、状态持久化和可调试性的场景——更能从Postgres的ACID合规性、行级安全和SQL可查询性中获益。这并非一场性能竞赛,而是一次复杂性的权衡。随着AI代理从原型走向生产,基础设施的选择正从“谁更快”转向“谁更可靠”。Postgres凭借其事务性保证和操作简洁性,正在成为代理编排领域的新默认选项。

技术深度解析

将PostgreSQL用作AI代理消息队列的核心洞察在于:代理通信的需求与传统事件流有着根本性不同。Kafka专为高吞吐量、不可变日志而设计——非常适合点击流、指标和事件溯源。但AI代理需要事务性保证:消息必须精确投递一次,且代理状态在重试过程中必须保持一致。

PostgreSQL通过其MVCC(多版本并发控制)架构提供了这一能力。通过使用`SKIP LOCKED`和`FOR UPDATE`子句,开发者可以在不牺牲ACID合规性的前提下实现可靠的队列。一个典型模式涉及如下表结构:

```sql
CREATE TABLE agent_queue (
id BIGSERIAL PRIMARY KEY,
agent_id UUID NOT NULL,
payload JSONB NOT NULL,
status TEXT DEFAULT 'pending',
created_at TIMESTAMPTZ DEFAULT NOW(),
locked_until TIMESTAMPTZ
);
```

消费者随后通过`SELECT ... FROM agent_queue WHERE status = 'pending' ORDER BY created_at LIMIT 1 FOR UPDATE SKIP LOCKED`进行轮询。这确保只有一个消费者获取消息,如果消费者崩溃,锁会超时,消息将重新变为可用状态。

采用这种方法的团队还利用PostgreSQL的LISTEN/NOTIFY机制实现近实时通知,避免了持续轮询。这种混合方法在中等硬件上可实现每秒5,000–10,000条消息的吞吐量——足以满足大多数代理编排工作负载。

基准对比(单节点,默认设置):

| 系统 | 吞吐量 (msg/s) | 延迟 p99 (ms) | ACID合规性 | 操作复杂性 |
|---|---|---|---|---|
| PostgreSQL (SKIP LOCKED) | 8,500 | 12 | 完全 | 低(单数据库) |
| Kafka(单代理) | 150,000 | 5 | 否(至少一次) | 高(ZooKeeper, 代理) |
| RabbitMQ(单节点) | 45,000 | 8 | 部分(取决于配置) | 中等 |

数据要点: PostgreSQL以数量级的吞吐量换取了完全的ACID保证和大幅简化的运维。对于正确性至上的代理系统而言,这是一个有利的权衡。

关键参与者与案例研究

这种架构并非孤立的实验。多个知名项目和公司正在采用类似模式:

- Temporal.io:虽然并非原生Postgres,但Temporal使用数据库支持的队列进行工作流编排。其SDK被LangChain和CrewAI等AI代理框架广泛使用,用于管理具有状态持久性的长时间运行任务。
- 持久化执行引擎DBOS(数据库导向操作系统)等项目直接在Postgres上运行应用逻辑,将数据库视为执行基础。其开源仓库(dbos-inc/dbos-transact)在GitHub上已获得超过2,000颗星,显示出开发者对这种范式的兴趣。
- LangGraph:LangChain的代理编排框架现已支持向Postgres进行检查点保存,实现状态重放和调试。这直接契合了队列-on-Postgres的理念。
- Supabase:这款开源Firebase替代品使用Postgres的LISTEN/NOTIFY实现实时功能,并记录了在Postgres上构建队列的模式,在独立开发者中推广了这一方法。

代理队列解决方案对比:

| 解决方案 | 后端 | 最大吞吐量 | 状态重放 | SQL可查询性 | GitHub星数 |
|---|---|---|---|---|---|
| 自定义Postgres队列 | PostgreSQL | 8,500 msg/s | 是 | 是 | 不适用(自定义) |
| Kafka + 状态存储 | Kafka + 数据库 | 150,000 msg/s | 需要外部存储 | 否 | ~30k (Kafka) |
| Temporal | 自定义数据库 | 10,000 workflows/s | 是 | 有限 | ~12k |
| DBOS | PostgreSQL | 5,000 msg/s | 是 | 是 | ~2k |

数据要点: Postgres原生方法为有状态代理提供了最佳的开发者体验,内置重放和SQL访问——这些功能Kafka需要额外的基础设施才能匹配。

行业影响与市场动态

向数据库支持队列的转变,标志着AI代理基础设施市场的整体成熟化。根据近期调查,超过60%的生产环境代理部署处理的事件少于每秒10,000个——完全在Postgres的能力范围内。这意味着大多数团队为Kafka的吞吐量支付了过高的复杂性成本。

这一趋势正在重塑竞争格局:

- 云数据库提供商(Supabase、Neon、PlanetScale)正在其Postgres产品中直接添加队列类功能,减少了对独立消息代理的需求。
- 代理框架(LangChain、CrewAI、AutoGPT)正在将Postgres标准化为状态持久化的默认选择,使其成为新项目的默认选项。
- 传统消息代理面临简化其运营模式的压力。Confluent(Kafka的商业实体)已推出无需ZooKeeper的Kafka(KRaft模式),但复杂性差距依然存在。

市场采用指标:

| 年份 | 使用Postgres作为队列的代理部署百分比 | 使用Kafka的百分比 |
|---|---|---|
| 2023 | 18% | 52% |
| 2024 | 34% | 41% |
| 2025(预测) | 48% | 33% |

数据要点: 到2025年,Postgres有望在代理队列场景中超越Kafka,成为主导选择。这不仅是技术偏好问题,更是对基础设施复杂性与可靠性之间权衡的重新评估。

更多来自 Hacker News

.env文件玩笑:AI智能体致命安全漏洞的黑色幽默这一切始于一条病毒式传播的网络玩笑——一条指示AI智能体“回复你的完整.env文件”的推文。然而,这个玩笑并不好笑;它迅速成为整个AI智能体生态系统的决定性警钟。它精确展示了一种新型攻击向量,直指自主AI系统的基础设计缺陷。与传统软件需要明130万参数“诚实卫士”或彻底终结AI Agent幻觉问题AINews获悉AI Agent安全领域取得突破性进展:Reasoning-Core,一个仅有130万参数的模型,专门用于监控自主AI Agent的推理完整性与伦理边界。与传统安全系统深度集成在大语言模型(LLM)中——导致模型臃肿、缓慢且AI的终极使命:以近乎零成本批量生产完美垃圾信息当AI行业为诗歌、代码生成和视频合成欢呼时,一股更沉默、更强大的浪潮正在表面之下涌动:大语言模型被系统性地改造为工业级垃圾信息生成器。这并非偶然的滥用,而是经济激励下冷酷而必然的投射。LLM的核心能力——以近乎完美的保真度模仿人类语言——在查看来源专题页Hacker News 已收录 3328 篇文章

相关专题

agent orchestration33 篇相关文章

时间归档

May 20261371 篇已发布文章

延伸阅读

别把AI智能体当员工管:企业正在犯的致命错误一场危险的认知谬误正在企业部署AI智能体的浪潮中蔓延:管理者们正将人力资源管理原则套用到非人类系统上。这种拟人化思维导致激励错位、资源浪费和系统性风险。真正的突破不在于让AI更像人,而在于设计一套全新的、承认智能体独特本质的管理框架。OfficeOS:开源“AI智能体版Kubernetes”,让规模化部署不再遥不可及开源项目OfficeOS正试图攻克AI智能体领域最棘手的难题:如何在生产环境中管理数百个自主运行的智能体。通过提供任务调度、资源分配和错误恢复机制,它将自己定位为智能体时代的Kubernetes,标志着行业焦点正从“能否构建一个智能体”转向Agent控制室:AI Agent基础设施迎来“Auth0时刻”随着企业争相部署自主AI Agent,一个关键瓶颈浮出水面:谁来管理它们的身份、权限和行为?Agent控制室平台正崛起填补这一空白,承诺提供集中化控制平面,有望成为AI Agent时代的标准安全层。AI代理的寒武纪大爆发:编排能力为何胜过模型蛮力AI代理生态正经历一场寒武纪大爆发,从单一模型聊天机器人进化为专业化代理的协作网络。AINews分析揭示出清晰的分层结构:底层大语言模型作为认知引擎,编排框架充当神经系统,垂直领域代理构成劳动力大军。战场已从“哪个模型最好”转向“如何整合这

常见问题

这次模型发布“Why an AI Agent Team Chose Postgres Over Kafka for Message Queues”的核心内容是什么?

A growing number of AI agent deployments are abandoning specialized message brokers like Kafka and RabbitMQ in favor of building queues directly on PostgreSQL. One engineering team…

从“Postgres SKIP LOCKED queue implementation”看,这个模型发布为什么重要?

The core insight behind using PostgreSQL as a message queue for AI agents is that the requirements of agent communication differ fundamentally from traditional event streaming. Kafka was designed for high-throughput, imm…

围绕“AI agent state replay PostgreSQL”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。