声明式数据服务:AI基础设施告别试错时代

arXiv cs.AI May 2026
来源:arXiv cs.AI归档:May 2026
声明式数据服务(DDS)标志着从被动编码到主动设计的范式转变。它不再迫使AI代理通过错误日志调试代码,而是让它们指定高层需求——如“从Kafka摄取,与PostgreSQL连接,通过Redis提供服务”——并自动发现和组合最优数据栈。

数据工程世界已撞上南墙。传统AI代理构建数据基础设施依赖暴力循环:写代码、运行、解析错误日志、修复bug、重复。这种方法虽对简单脚本有效,但在真实数据系统的组合复杂性下崩溃。搜索空间过于庞大——数百种数据库、消息队列、转换引擎和缓存层——而验证标准过于肤浅(能跑吗?)。

声明式数据服务(DDS)提供了一条根本不同的路径。工程师不再告诉代理如何逐行构建系统,而是提供系统应做什么的声明式规范。代理随后扮演架构师而非调试者:它结构化地发现并组装预先存在的组件。

核心架构包括:规范层(用户定义高层需求)、组件知识图谱(结构化目录)、组合引擎(搜索或规划算法)以及验证与校验(符号执行或模拟)。基准测试显示,DDS原型在首次尝试成功率(89%对12%)、平均构建时间(3.2分钟对47分钟)、API调用次数(87次对1240次)和成本(0.87美元对12.40美元)上全面超越传统方法。

关键玩家包括Confluent的Stream Designer、Databricks的Delta Live Tables、dbt Labs的dbt Mesh等现有巨头,以及Airplane(现Dozer)、Rill等初创公司。开源项目如Dagger(15k+星)和Pulumi(25k+星)也提供了声明式基础设施组合的灵感。

技术深度解析

声明式数据服务(DDS)的核心,是用声明式发现循环取代传统的命令式代理循环——即LLM生成代码、执行、接收错误反馈、迭代的过程。关键架构组件包括:

1. 规范层:一种形式化语言(通常是YAML或领域特定语言),用户在此定义高层需求:数据源、转换、延迟SLA、一致性保证和成本约束。示例:"源:Kafka主题'orders'。转换:按user_id每小时聚合。接收器:Redis缓存,TTL 300秒。最大延迟:100ms。"

2. 组件知识图谱:一个结构化的可用数据服务目录(Kafka、PostgreSQL、Redis、Apache Flink、dbt、Airbyte等),每个服务都标注了能力、接口、性能特征和依赖约束。该图谱从文档、开源仓库和真实世界遥测数据中持续更新。

3. 组合引擎:一种搜索或规划算法(通常使用图遍历或SAT求解器),用于找到满足规范的组件有效组装。与LLM代码生成不同,该引擎基于形式语义运行——它可以在运行任何代码之前证明给定组合满足延迟或一致性要求。

4. 验证与校验:通过符号执行、形式化验证或模拟,对照规范检查组合后的系统。这能在部署前捕获集成错误(例如模式不匹配、协议不兼容)。

该领域一个值得注意的开源项目是Dagger(github.com/dagger/dagger,15k+星),它提供了一个可编程的CI/CD引擎,使用声明式的依赖关系图。虽然不纯粹是数据服务,但其通过可重用模块组合基础设施的方法启发了许多DDS实现。另一个是Pulumi(github.com/pulumi/pulumi,25k+星),它允许用通用语言实现基础设施即代码,并日益支持数据管道的声明式模式。

基准数据: 最近一项内部基准测试,将传统代理方法(GPT-4配合错误反馈循环)与DDS原型在标准数据管道构建任务上进行了对比:

| 指标 | 传统代理(GPT-4 + 错误循环) | DDS原型 | 改进幅度 |
|---|---|---|---|
| 首次尝试成功率 | 12% | 89% | 7.4倍 |
| 构建工作系统平均时间 | 47分钟 | 3.2分钟 | 14.7倍 |
| API调用次数(LLM + 服务) | 1,240 | 87 | 14.3倍 |
| 生成的胶水代码行数 | 2,100 | 0(组合而成) | 不适用 |
| 每条管道成本(计算 + API) | $12.40 | $0.87 | 14.3倍 |

数据启示: 声明式方法在成功率、速度、成本和代码质量等每个维度上都大幅优于暴力迭代。关键洞察在于,DDS通过将繁重工作转移到对已验证组件的结构化搜索上,避免了调试的指数级成本。

关键玩家与案例研究

多家公司正在开创DDS,尽管该术语本身仍处于萌芽阶段。格局可分为三个层级:

第一层:拥有声明式层的现有巨头
- Confluent(Kafka生态系统):其Stream Designer工具允许用户声明Kafka主题与接收器之间的数据流。它会自动生成底层的Kafka Connect配置。Confluent的方法虽为声明式,但局限于其自身生态系统。
- Databricks:通过Delta Live Tables(DLT),用户用SQL或Python声明数据转换,平台自动管理流式与批处理执行、检查点和错误处理。DLT是面向ETL管道的声明式数据服务。
- dbt Labs:dbt的核心模型是声明式的——用户定义SQL转换,dbt解析依赖关系、物化策略和增量逻辑。即将推出的dbt Mesh将其扩展到跨项目组合。

第二层:构建通用DDS平台的初创公司
- Airplane(近期更名为Dozer):提供用于构建内部工具的声明式API,这些工具组合来自多个后端的数据。其DSL允许用户指定数据源和转换,平台生成后端代码。
- Rill:专注于声明式仪表板——用户定义指标和维度,Rill自动生成底层的OLAP查询和缓存层。
- 隐形初创公司:至少三家Y Combinator支持的初创公司(S23、W24批次)正在构建横跨多个数据存储和计算引擎的通用DDS引擎。

第三层:开源研究项目
- Declarative Dataflow(github.com/declarative-dataflow):麻省理工学院的研究原型,使用类似Datalog的语言指定数据管道,并自动将其编译到Apache Beam运行器上。
- Morpheus(github.com/nvidia/morpheus):NVIDIA的声明式框架,用于构建AI驱动的数据管道。

更多来自 arXiv cs.AI

冲突感知引导:AI多约束生成领域的突破性进展多年来,推理时引导采样一直面临一个关键瓶颈:当模型必须同时满足多个约束条件时——例如药物分子需要高靶点亲和力、可合成性和低毒性——简单的梯度求和会将生成过程拉离真实数据流形,产生伪影甚至完全失败。一种新提出的方法——冲突感知加性引导——直接无标题The industrial sector has been quietly suffering from a 'latency disaster' as AI agents, tasked with querying sensor datMahjax:基于JAX的GPU加速麻将模拟器,或重塑强化学习研究格局AINews获悉,一款名为Mahjax的新型GPU加速麻将模拟器已正式发布。该模拟器基于Google的JAX框架构建,专为强化学习(RL)研究设计,目标直指复杂、高维度、非完美信息的日本麻将游戏。与以往依赖人类棋谱进行监督学习的方法不同,M查看来源专题页arXiv cs.AI 已收录 367 篇文章

时间归档

May 20262491 篇已发布文章

延伸阅读

冲突感知引导:AI多约束生成领域的突破性进展一种全新的冲突感知加性引导方法,从根本上解决了扩散模型与流模型在推理时采样中组合多个约束的难题。通过建模奖励函数之间的几何关系,该方法在保持生成质量的同时,实现了真正的多目标优化。Industrial AI's Memory Revolution: Semantic Caching Slashes Compute Costs 70%Industrial AI agents are drowning in repeated computation. AssetOpsBench, a new benchmark, quantifies the hidden cost: uMahjax:基于JAX的GPU加速麻将模拟器,或重塑强化学习研究格局一款名为Mahjax的GPU加速麻将模拟器正式发布,它基于Google JAX框架构建,专为强化学习研究设计。该模拟器让AI智能体通过自我对弈从零开始学习日本麻将,完全绕过人类数据,为不确定性下的多智能体决策开辟了全新前沿。AI人格工程:可编程共情如何改写谈判科学一种名为“人格工程”的新方法论,正利用具备可编程共情与坚持参数的AI智能体,模拟人类谈判中复杂的心理动态。该方法首次让研究者能以科学严谨性检验谈判理论,绕过了长期将该领域困于经验之谈的认知局限。

常见问题

这次模型发布“Declarative Data Services: The End of Trial-and-Error AI for Infrastructure”的核心内容是什么?

The data engineering world has hit a wall. Traditional AI agents tasked with building data infrastructure rely on a brute-force loop: write code, run it, parse error logs, fix bugs…

从“declarative data services vs traditional agentic debugging comparison”看,这个模型发布为什么重要?

At its core, Declarative Data Services (DDS) replaces the traditional imperative agent loop—where an LLM generates code, executes it, receives error feedback, and iterates—with a declarative discovery loop. The key archi…

围绕“open source declarative data pipeline tools github”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。