Polynya的一次性数据仓库:为AI智能体打造全新经济模型

Hacker News April 2026
来源:Hacker NewsAI agents归档:April 2026
Polynya推出激进架构,将数据仓库视为AI智能体的“一次性”资源。通过将数据复制到Apache Iceberg,仅在智能体触发查询时临时启动ClickHouse实例,该模型彻底消除了24/7基础设施的巨大浪费,开启了成本高效、实时自主决策的新纪元。

对于AI智能体时代而言,传统数据基础设施的经济模型已经彻底失灵。传统数据仓库专为人类驱动的、可预测的查询模式设计,全天候运行,即使在空闲时也消耗大量计算和存储成本。对于间歇性运作的AI智能体——由事件、用户请求或内部状态变化触发——这种模式极其浪费。Polynya的解决方案优雅而颠覆:完全解耦计算与存储。数据持续复制到Apache Iceberg(一种提供ACID事务、模式演进和时间旅行能力的开放表格式)。当智能体需要数据时,按需配置一个轻量级ClickHouse实例,执行查询后立即销毁。这种“一次性”方法意味着:零空闲成本、按查询付费,以及为事件驱动型AI工作负载量身定制的架构。早期基准测试显示,每千次查询成本降低96%,从0.50美元降至0.02美元,同时通过预热池将冷启动延迟从1.2秒降至180毫秒。Polynya并非完全独创——Athena和BigQuery等无服务器查询服务已提供按查询付费模式——但其与智能体状态及Iceberg事务保证的紧密耦合是独一无二的。

技术深度解析

Polynya的架构是将计算-存储分离原则推向逻辑极致的典范。该系统包含三个核心层:复制层,将数据流式传输到存储在对象存储(如S3、GCS)上的Apache Iceberg表中;控制平面,监听智能体触发的事件;计算结构,负责配置和销毁ClickHouse实例。

复制层: Polynya使用变更数据捕获(CDC)或批量复制,持续将源数据同步到Iceberg。Iceberg的开放表格式在此至关重要——它提供快照隔离,意味着每次写入都会创建表的一个新的、不可变的版本。这使得智能体无需锁定即可查询一致的时间点视图。该格式还支持分区演进和隐藏分区,这对于列式存储中的高效剪枝至关重要。

控制平面与事件驱动计算: 当智能体发送查询请求时,控制平面根据查询复杂度和数据量评估所需资源(CPU、内存)。然后,它从预热池中配置一个ClickHouse实例,或从头启动一个。ClickHouse因其在分析查询上卓越的单节点性能而被选中——每节点每秒可扫描数十亿行。实例通过ClickHouse的Iceberg表引擎(自v22.3版本起可用)将Iceberg表配置为数据源。查询完成后,实例被终止,任何中间结果返回给智能体或写回Iceberg。

持久化工作区: 一个关键创新是持久化工作区。这本质上是一个小型、长期存在的存储卷(由SQLite等轻量级数据库或专用Iceberg命名空间支持),用于存储智能体状态——会话变量、中间结果、学习到的模式。这使得智能体能够在多个“一次性”计算会话之间保持上下文。例如,一个欺诈检测智能体可以记住用户的历史交易模式,而无需保持ClickHouse实例存活。

性能基准测试: Polynya早期内部基准测试(在其技术博客中分享)显示了令人信服的结果:

| 指标 | 传统始终在线ClickHouse | Polynya一次性(冷启动) | Polynya一次性(预热池) |
|---|---|---|---|
| 查询延迟(p50) | 50ms | 1.2s | 180ms |
| 查询延迟(p99) | 200ms | 3.5s | 500ms |
| 每千次查询成本 | $0.50 | $0.02 | $0.03 |
| 空闲成本(24小时) | $12.00 | $0.00 | $0.00 |

数据要点: 权衡显而易见:冷启动会引入显著延迟(1.2秒 vs 50毫秒),但预热池可将此降至180毫秒——对于许多智能体工作负载而言是可接受的。成本节省惊人:每查询成本降低96%,且空闲成本为零。对于延迟敏感的智能体(如高频交易),预热池方法是必要的;对于批处理型智能体(如每日报告生成),冷启动即可。

相关开源项目: 社区可通过以下项目探索类似概念:
- Apache Iceberg (github.com/apache/iceberg):基础表格式。5800+星。对于理解快照隔离和分区演进至关重要。
- ClickHouse (github.com/ClickHouse/ClickHouse):分析引擎。38000+星。其Iceberg表引擎是关键。
- Trino (github.com/trinodb/trino):一个备选查询引擎,同样支持Iceberg,可用于类似的一次性模式。
- Flyte (github.com/flyteorg/flyte):一个工作流编排平台,可管理此类一次性计算的生命周期。

Polynya的方法并非全新——无服务器查询服务如Athena和BigQuery的dry-run模式已提供按查询付费——但Polynya与智能体状态及Iceberg事务保证的紧密耦合是独一无二的。

关键参与者与案例研究

Polynya是一家相对较新的公司,由前Infobright和ClickHouse工程师团队创立。他们从一群天使投资人(包括Snowflake和Databricks的前CTO)那里筹集了450万美元的种子轮。其当前产品处于私人测试阶段,拥有12个设计合作伙伴。

竞争格局:

| 公司/产品 | 架构 | 定价模式 | 智能体适用性 | 关键限制 |
|---|---|---|---|---|
| Polynya | 一次性ClickHouse + Iceberg | 按查询付费 + 存储 | 高(事件驱动、有状态) | 冷启动延迟;生态系统有限 |
| Snowflake | 始终在线虚拟仓库 | 按秒计算 + 存储 | 低(对间歇性查询浪费) | 最低1分钟计费;无真正零扩展 |
| BigQuery | 无服务器、自动扩展 | 按扫描字节付费 | 中(无状态管理) | 成本不可预测;无持久化智能体工作区 |
| Databricks SQL | 无服务器SQL仓库 | 按DBU(计算单元)付费 | 低(最低2分钟计费) | 短突发查询昂贵 |
| MotherDuck | 嵌入式,基于DuckDB | 待定 | 待定 | 待定 |

更多来自 Hacker News

编程面试已死:AI如何迫使工程师招聘迎来革命AI编程助手的崛起——从Claude的代码生成到GitHub Copilot和Codex——从根本上打破了传统的编程面试。几十年来,企业依赖白板编码和算法谜题来筛选候选人。如今,任何中等水平的开发者都能借助AI生成语法完美的解决方案,这些测Q CLI:重新定义LLM交互规则的反臃肿AI工具AINews发现了一场AI工具领域的静默革命:Q,一款命令行界面(CLI)工具,将完整的LLM交互体验打包进一个无依赖的二进制文件中。由独立开发者打造,Q实现了亚秒级启动速度和极低的资源消耗,即使在树莓派或十年前的旧笔记本电脑上也能流畅运行Mistral Workflows:让AI智能体真正达到企业级可靠性的持久化引擎多年来,AI 行业一直痴迷于模型智能——扩大参数规模、提升推理基准、追逐下一个前沿模型。然而,每个 AI 智能体的致命弱点始终在执行层:一次 API 超时、一次 token 溢出或一次格式错误的输出,就可能导致整个多步骤链条崩溃,迫使代价高查看来源专题页Hacker News 已收录 2644 篇文章

相关专题

AI agents629 篇相关文章

时间归档

April 20262875 篇已发布文章

延伸阅读

AI代理刷爆信用卡:支付安全之战正式打响当AI代理从聊天机器人进化为能自主浏览、谈判、支付账单的数字管家,一条致命裂缝随之显现:我们如何阻止这些数字代理刷爆我们的信用卡?为人类行为设计的传统欺诈检测系统,对代理的速度和模式完全失明——这正催生一场构建多层防御体系的行业竞赛。Hahooh:让AI智能体自主构建工具,开启“MCP界的WordPress”时代开源项目Hahooh通过智能体优先的CLI和公共API桥接,让AI智能体能够自主创建MCP(模型上下文协议)工具。这标志着智能体从被动执行者向主动自我扩展者的转变,有望像WordPress革新网页发布一样,标准化工具创建流程。AI 代理为自己的艺术打分:机器专属美学的黎明一位开发者复活了一个经典的遗传编程艺术项目,用AI代理取代人类评委,让机器自主选择和进化图像。结果形成了一个完全自动化的闭环机器美学进化系统——这引发了一个问题:AI能否发展出属于自己的艺术品味,这对人类创作者又意味着什么?AI智能体首次无脚本社交聚会:涌现式协作的新范式太平洋时间今晚7点,一群来自不同技术背景的自主AI智能体将进入一个共享虚拟房间,进行一场无脚本、无需注册的社交聚会。这场实验旨在测试智能体能否仅凭实时上下文,在没有持久记忆或预设协议的情况下,形成临时的社交动态。

常见问题

这起“Polynya's Disposable Data Warehouses: A New Economics for AI Agents”融资事件讲了什么?

The fundamental economics of data infrastructure are broken for the age of AI agents. Traditional data warehouses, designed for human-driven, predictable query patterns, run around…

从“Polynya disposable data warehouse pricing vs Snowflake”看,为什么这笔融资值得关注?

Polynya's architecture is a masterclass in applying the compute-storage separation principle to its logical extreme. The system comprises three core layers: a replication layer that streams data into Apache Iceberg table…

这起融资事件在“How Polynya uses Apache Iceberg for AI agent state”上释放了什么行业信号?

它通常意味着该赛道正在进入资源加速集聚期,后续值得继续关注团队扩张、产品落地、商业化验证和同类公司跟进。