AI代理团队为何弃Kafka选Postgres做消息队列?一场关于可靠性的基础设施革命

Hacker News May 2026
来源:Hacker Newsagent orchestration归档:May 2026
一支工程团队打破行业惯例,在PostgreSQL上为AI代理构建了自定义消息队列,而非采用Kafka或RabbitMQ。这一决策将操作简洁性、ACID事务和紧密数据模型集成置于峰值吞吐量之上,折射出AI代理基础设施设计的整体成熟化趋势。

越来越多的AI代理部署正在放弃Kafka、RabbitMQ等专用消息代理,转而直接在PostgreSQL上构建队列。一支工程团队最近公开的架构设计,将这一趋势具象化:他们选择Postgres,看中的是其事务保障、状态重放能力,以及消除独立中间件系统的优势。虽然Kafka在每秒数百万事件处理上表现卓越,但AI代理——尤其是那些需要长时间运行任务、状态持久化和可调试性的场景——更能从Postgres的ACID合规性、行级安全和SQL可查询性中获益。这并非一场性能竞赛,而是一次复杂性的权衡。随着AI代理从原型走向生产,基础设施的选择正从“谁更快”转向“谁更可靠”。Postgres凭借其事务性保证和操作简洁性,正在成为代理编排领域的新默认选项。

技术深度解析

将PostgreSQL用作AI代理消息队列的核心洞察在于:代理通信的需求与传统事件流有着根本性不同。Kafka专为高吞吐量、不可变日志而设计——非常适合点击流、指标和事件溯源。但AI代理需要事务性保证:消息必须精确投递一次,且代理状态在重试过程中必须保持一致。

PostgreSQL通过其MVCC(多版本并发控制)架构提供了这一能力。通过使用`SKIP LOCKED`和`FOR UPDATE`子句,开发者可以在不牺牲ACID合规性的前提下实现可靠的队列。一个典型模式涉及如下表结构:

```sql
CREATE TABLE agent_queue (
id BIGSERIAL PRIMARY KEY,
agent_id UUID NOT NULL,
payload JSONB NOT NULL,
status TEXT DEFAULT 'pending',
created_at TIMESTAMPTZ DEFAULT NOW(),
locked_until TIMESTAMPTZ
);
```

消费者随后通过`SELECT ... FROM agent_queue WHERE status = 'pending' ORDER BY created_at LIMIT 1 FOR UPDATE SKIP LOCKED`进行轮询。这确保只有一个消费者获取消息,如果消费者崩溃,锁会超时,消息将重新变为可用状态。

采用这种方法的团队还利用PostgreSQL的LISTEN/NOTIFY机制实现近实时通知,避免了持续轮询。这种混合方法在中等硬件上可实现每秒5,000–10,000条消息的吞吐量——足以满足大多数代理编排工作负载。

基准对比(单节点,默认设置):

| 系统 | 吞吐量 (msg/s) | 延迟 p99 (ms) | ACID合规性 | 操作复杂性 |
|---|---|---|---|---|
| PostgreSQL (SKIP LOCKED) | 8,500 | 12 | 完全 | 低(单数据库) |
| Kafka(单代理) | 150,000 | 5 | 否(至少一次) | 高(ZooKeeper, 代理) |
| RabbitMQ(单节点) | 45,000 | 8 | 部分(取决于配置) | 中等 |

数据要点: PostgreSQL以数量级的吞吐量换取了完全的ACID保证和大幅简化的运维。对于正确性至上的代理系统而言,这是一个有利的权衡。

关键参与者与案例研究

这种架构并非孤立的实验。多个知名项目和公司正在采用类似模式:

- Temporal.io:虽然并非原生Postgres,但Temporal使用数据库支持的队列进行工作流编排。其SDK被LangChain和CrewAI等AI代理框架广泛使用,用于管理具有状态持久性的长时间运行任务。
- 持久化执行引擎DBOS(数据库导向操作系统)等项目直接在Postgres上运行应用逻辑,将数据库视为执行基础。其开源仓库(dbos-inc/dbos-transact)在GitHub上已获得超过2,000颗星,显示出开发者对这种范式的兴趣。
- LangGraph:LangChain的代理编排框架现已支持向Postgres进行检查点保存,实现状态重放和调试。这直接契合了队列-on-Postgres的理念。
- Supabase:这款开源Firebase替代品使用Postgres的LISTEN/NOTIFY实现实时功能,并记录了在Postgres上构建队列的模式,在独立开发者中推广了这一方法。

代理队列解决方案对比:

| 解决方案 | 后端 | 最大吞吐量 | 状态重放 | SQL可查询性 | GitHub星数 |
|---|---|---|---|---|---|
| 自定义Postgres队列 | PostgreSQL | 8,500 msg/s | 是 | 是 | 不适用(自定义) |
| Kafka + 状态存储 | Kafka + 数据库 | 150,000 msg/s | 需要外部存储 | 否 | ~30k (Kafka) |
| Temporal | 自定义数据库 | 10,000 workflows/s | 是 | 有限 | ~12k |
| DBOS | PostgreSQL | 5,000 msg/s | 是 | 是 | ~2k |

数据要点: Postgres原生方法为有状态代理提供了最佳的开发者体验,内置重放和SQL访问——这些功能Kafka需要额外的基础设施才能匹配。

行业影响与市场动态

向数据库支持队列的转变,标志着AI代理基础设施市场的整体成熟化。根据近期调查,超过60%的生产环境代理部署处理的事件少于每秒10,000个——完全在Postgres的能力范围内。这意味着大多数团队为Kafka的吞吐量支付了过高的复杂性成本。

这一趋势正在重塑竞争格局:

- 云数据库提供商(Supabase、Neon、PlanetScale)正在其Postgres产品中直接添加队列类功能,减少了对独立消息代理的需求。
- 代理框架(LangChain、CrewAI、AutoGPT)正在将Postgres标准化为状态持久化的默认选择,使其成为新项目的默认选项。
- 传统消息代理面临简化其运营模式的压力。Confluent(Kafka的商业实体)已推出无需ZooKeeper的Kafka(KRaft模式),但复杂性差距依然存在。

市场采用指标:

| 年份 | 使用Postgres作为队列的代理部署百分比 | 使用Kafka的百分比 |
|---|---|---|
| 2023 | 18% | 52% |
| 2024 | 34% | 41% |
| 2025(预测) | 48% | 33% |

数据要点: 到2025年,Postgres有望在代理队列场景中超越Kafka,成为主导选择。这不仅是技术偏好问题,更是对基础设施复杂性与可靠性之间权衡的重新评估。

更多来自 Hacker News

NLNet Labs向AI宣战:开源代码禁止用于大模型训练NLNet Labs近日更新了其开源软件的许可条款,明确禁止将包括广泛部署的Unbound和NSD在内的代码用于大语言模型的训练或推理,除非获得商业授权。这一举措的影响远超DNS社区,直接挑战了AI行业长期默认的“公开代码可自由使用”的假设LLM让硬件设计像说话一样简单:M5Stack革命来袭一个突破性的开源项目已经问世,它证明大语言模型现在能够将日常语言转化为M5Stack生态系统的完整硬件设计。工程师不再需要记忆引脚定义、I2C地址和电源需求,用户只需描述他们想要什么——比如“一个测量温湿度并显示在屏幕上的设备”——LLM就OpenClaw Launch 发布:30秒部署AI Agent,零DevOps,重新定义交付速度本周发布的 OpenClaw Launch 是一个托管运行时,它将运行自主AI Agent所需的整个DevOps栈——包括扩缩容、安全、更新和监控——封装在单次点击背后。用户只需定义Agent的逻辑,即可在30秒内获得一个可直接投入生产的端查看来源专题页Hacker News 已收录 5300 篇文章

相关专题

agent orchestration53 篇相关文章

时间归档

May 20263028 篇已发布文章

延伸阅读

马具工程师崛起:驱动AI智能体部署的蓝领技术岗位AI行业正经历一场静默而深刻的变革:从模型军备竞赛转向部署效率之争。一个名为“马具工程师”的新兴角色应运而生——他们不训练模型,而是构建和维护AI智能体运行所需的操作基础设施,包括提示编排、工具集成与安全护栏。这标志着AI产业从以模型为中心零摩擦发布:这款GPT让每个AI创作瞬间拥有公开URL一款全新的GPT工具正在改写AI内容分发的规则:在对话中生成任何内容,即刻获得一个实时、公开的URL——无需域名、无需服务器、零成本。AINews深入探究这种零摩擦发布模式如何引爆AI内容生态,以及它对开放网络未来的深远影响。Zehn记忆引擎:将AI提示词转化为可模糊搜索的知识库AINews独家发现Zehn——一款专为AI代理设计的记忆引擎,它能索引用户发送的每一条提示词,实现跨数千次对话的即时模糊搜索。该工具直击上下文过载的痛点,将零散的聊天记录转化为个人知识库,为重度AI用户带来效率革命。The 98% Trap: Why AI Agents Fail from Invisible Engineering, Not Smarter ModelsA landmark survey on 'harness engineering' reveals that 98% of AI agent failures are caused by fragile peripheral system

常见问题

这次模型发布“Why an AI Agent Team Chose Postgres Over Kafka for Message Queues”的核心内容是什么?

A growing number of AI agent deployments are abandoning specialized message brokers like Kafka and RabbitMQ in favor of building queues directly on PostgreSQL. One engineering team…

从“Postgres SKIP LOCKED queue implementation”看,这个模型发布为什么重要?

The core insight behind using PostgreSQL as a message queue for AI agents is that the requirements of agent communication differ fundamentally from traditional event streaming. Kafka was designed for high-throughput, imm…

围绕“AI agent state replay PostgreSQL”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。