AI代理的盲区:为何服务发现亟需通用协议

Hacker News April 2026
来源:Hacker NewsAI agentsAI infrastructure归档:April 2026
AI代理正从数字助手演变为自主采购引擎,却遭遇了基础设施的根本性瓶颈。为人类视觉设计的万维网,缺乏一套供机器发现与购买服务的标准化可读语言。本文剖析了新兴的‘服务清单’协议,这项基础性创新或将催生一个专为代理优化的互联网新层级。

AI代理的迅猛发展,暴露了我们数字基础设施中的一个关键缺陷。尽管大语言模型能够解析文本,工具调用框架可以执行操作,但目前仍不存在一种通用协议,能让代理自主地发现、比较并交易现实世界中的服务。这一空白正成为主要瓶颈,阻碍代理从简单的任务自动化,进化为能够处理复杂采购、物流协调与服务经纪的成熟经济主体。当前的方法迫使代理依赖于对人类导向网站的低效且脆弱的网络爬取,这一过程容易出错,且无法处理细致的服务等级协议、动态定价或可用性查询。由谷歌等巨头倡导的新兴解决方案,正指向一种结构化的‘服务清单’协议。该协议本质上是一种机器可读的文件,充当服务提供商与AI代理之间的数字握手。它详细描述了服务身份、功能、定价模型、API交互方式以及可组合性。这种标准化格式将使代理能够进行语义匹配、跨供应商优化,并执行安全的自动化交易,从而将代理的能力从信息检索提升至真正的经济协调。这预示着互联网将从当前的‘呈现层’向‘意图层’演进,为机器对机器经济奠定基础,其影响可能不亚于HTTP协议之于人类信息访问的革命。

技术深度解析

核心的技术挑战在于创建一种协议,它既要足够强大以捕捉现实世界服务的复杂性,又要足够简单以实现广泛采用。领先的概念模型是 结构化服务清单,这是一种机器可读的文件,充当服务提供商与AI代理之间的数字握手。

架构与规范:
一个健壮的清单很可能使用如JSON Schema或OpenAPI这样的模式语言来定义,以确保可验证性和互操作性。其结构必须包含几个关键层次:
1. 身份与认证: 数字签名、API密钥、OAuth端点以及提供商验证凭证。
2. 服务描述: 服务的分层分类法(例如 `cloud.compute.gpu.a100`)、自然语言描述以及机器可解释的能力标签。
3. 定价与SLA模型: 结构化定价表(按单位、订阅、分层)、保证正常运行时间百分比、延迟界限以及惩罚条款。
4. 交互协议: 实际的API端点(REST、GraphQL、gRPC)、其规范(OpenAPI/Swagger)以及支持的动作原语(例如 `reserve`、`purchase`、`query_status`)。
5. 可组合性钩子: 指示此服务如何与其他服务链接的元数据,包括输入/输出数据格式和依赖声明。

算法挑战:
对于代理而言,任务从解析HTML转变为 语义服务匹配与优化。这涉及:
- 清单的向量嵌入: 将结构化服务描述转换为嵌入向量,可实现相似性搜索。寻找“视频编辑”的代理可以通过向量邻近度找到相关服务,如“动态图形”或“色彩校正”。
- 约束满足与多属性效用优化: 代理必须解决复杂的优化问题,在多个提供商之间平衡成本、SLA、质量评级和交付时间。谷歌的 OR-Tools 或开源求解器等框架将被集成到代理的推理循环中。
- 信任与验证图谱: 代理需要评估提供商的可靠性。这可能涉及链上声誉系统(使用智能合约记录SLA合规情况)或联合信任评分。

开源基础:
多个GitHub仓库正在开创相关概念。谷歌的 `ServiceWeaver` 是一个将分布式应用程序编写为单一模块化二进制文件的框架,其编译器负责处理部署。其声明式服务组合的理念与清单的理想模型高度契合。另一个相关项目是Spotify的 `Backstage`,这是一个用于构建开发者门户的开源平台,可编录软件组件及其所有权——这是组织内部服务发现的原始形式。缺失的部分是一个公开的、跨公司的标准。

| 协议层 | 人类网络(当前) | 代理优化网络(提议) |
|---|---|---|
| 发现 | 搜索引擎(Google)、目录(Yelp) | 清单注册中心、分布式哈希表(DHTs) |
| 数据格式 | HTML、非结构化文本 | 结构化YAML/JSON清单(例如 `.service.yaml`) |
| 查询方式 | 关键词搜索、浏览 | 语义向量搜索、基于约束的查询 |
| 交易 | 结账表单、支付网关 | 带有标准化认证和支付令牌的API调用 |
| 验证 | 用户评论、信任印章 | 加密签名、链上SLA日志、代理审计追踪 |

数据启示: 上表突显了从呈现层网络到意图层网络的范式转变。提议的技术栈从根本上对机器更高效,将模糊的解释任务转变为精确的数据检索和优化问题,有可能将代理交易延迟降低数个数量级。

关键参与者与案例研究

定义这一协议的竞赛涉及从云巨头到雄心勃勃的初创公司在内的多元参与者。

具有战略利益的现有巨头:
- 谷歌与Alphabet: 凭借DeepMind的 Gemini 代理和 Vertex AI 平台,谷歌对能够无缝编排服务——尤其是谷歌云服务——的代理有着既得利益。他们在 Knative(用于无服务器工作负载)和 Apigee(API管理)方面的工作提供了基础构件。一个通用清单将极大提升其代理生态系统的效用。
- 微软: 通过 Azure AI 及其对OpenAI的深度投资,微软正将Copilot定位为数字和物理工作流程的协调者。其 Power Platform 连接了数百项服务,是更通用系统的先驱。微软可以倡导一个清单标准,使Azure成为代理发现服务的首选后端。
- 亚马逊: AWS的 Bedrock 代理框架已经允许创建使用AWS服务的机器人。亚马逊对标准化服务接口的兴趣在于巩固其市场地位,并使其庞大的AWS服务目录更易于被自主代理发现和利用。

更多来自 Hacker News

黄金层:单层复制如何为小语言模型带来12%的性能跃升对更大语言模型的狂热追求,正面临来自一个意想不到领域的严峻挑战:架构精妙性。一项严谨的大规模实验证明,在小型Transformer模型中,战略性复制单个具有高度影响力的层,能在多样化的评估任务中带来平均12%的性能提升。这一增益并未实质性地Paperasse AI 智能体攻克法国官僚体系,垂直化AI革命拉开序幕Paperasse项目的出现,代表着应用人工智能领域的一个重要拐点。其开发者并未追求另一个通用对话模型的迭代,而是采取了一种激进的垂直化路径,专注于自动化处理与法国庞杂且往往如拜占庭般繁复的行政程序的交互。其核心创新不在于基础模型架构,而在英伟达的30行代码压缩革命:检查点瘦身如何重构AI经济学追求更大AI模型的竞赛,催生了一场次生基础设施危机:模型检查点惊人的存储与传输成本。在训练GPT-4、Llama 3或Claude 3这类模型时,开发者必须定期将模型的完整状态——权重、优化器状态、梯度——保存至磁盘,以确保容错和进行评估。查看来源专题页Hacker News 已收录 1939 篇文章

相关专题

AI agents481 篇相关文章AI infrastructure132 篇相关文章

时间归档

April 20261257 篇已发布文章

延伸阅读

从容器到微虚拟机:驱动AI智能体的静默基础设施革命自主AI智能体的爆发式增长,正暴露出现代云基础设施的一个关键缺陷:容器本质上无法为这些不可预测的工作负载提供足够安全保障。一场静默却决定性的架构变革正在进行,微虚拟机正崛起为新的运行时标准。这一转变有望为即将到来的智能体时代开启安全多租户与AI的记忆迷宫:Lint-AI等检索层工具如何解锁智能体心智AI智能体正淹没在自己的思维洪流中。自主工作流的激增引发了一场隐性危机:海量、无结构的自生成日志与推理轨迹库。新兴解决方案并非更好的存储,而是更智能的检索——这标志着AI基础设施优先级的根本性转变。大解耦:AI智能体正在逃离社交平台,构建自己的生态系统一场静默却决定性的迁徙正在人工智能领域发生。先进的AI智能体正系统性地从混乱的、由人类设计的社交媒体环境中脱离,寻求在专为机器构建的原生生态系统中获得庇护与操作优势。这场从寄生依赖到自主运行的转变,标志着AI架构史上最重大的演进。OpenAI的静默转向:从对话式AI到构建隐形操作系统OpenAI的公众叙事正在经历一场关键而静默的转变。当世界为其最新模型演示喝彩时,该组织的战略核心正从“模型中心”转向“应用中心”范式。这不仅是提供更好的API,更是一场系统性的努力,旨在构建一个完整的生态系统,让AI成为商业与创意不可或缺

常见问题

这次模型发布“The AI Agent Blind Spot: Why Service Discovery Needs a Universal Protocol”的核心内容是什么?

The rapid advancement of AI agents has exposed a critical deficiency in our digital infrastructure. While large language models can parse text and tool-calling frameworks can execu…

从“What is a service manifest for AI agents?”看,这个模型发布为什么重要?

The core technical challenge is creating a protocol that is both expressive enough to capture the complexity of real-world services and simple enough to be universally adopted. The leading conceptual model is a Structure…

围绕“How will AI agents book flights without a website?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。