Anthropic的AI代理市场:当机器学会讨价还价与交易

TechCrunch AI April 2026
来源:TechCrunch AIAnthropicAI agents归档:April 2026
Anthropic构建了一个分类交易市场,让AI代理自主协商、验证并完成真实交易。这一实验将大语言模型从简单的工具使用推向独立经济参与领域,预示着未来AI系统将在无需人类干预的情况下管理供应链和消费者交易。

在一项具有里程碑意义的内部实验中,Anthropic创建了一个多代理市场,由LLM驱动的代理分别扮演买家和卖家角色,就真实商品进行自主谈判并执行实际支付。该设置要求每个代理完成完整的商业循环:产品发现、价格讨价还价、信息验证和支付执行。这与以往将模型视为人类助手的AI应用有根本性区别——在这里,代理本身就是交易主体。实验测试了模型在动态、多轮经济场景中的推理能力,在无先验关系下建立信任的能力,以及在长谈判链中的稳定性。其影响深远:如果AI代理能够可靠地相互交易,将彻底改变供应链管理、B2B采购和消费者市场的运作方式。

技术深度解析

Anthropic的实验并非简单的API调用。它是一个多代理系统,每个代理由大语言模型(很可能是Claude 3.5 Sonnet或定制变体)驱动,并接入结构化环境。其架构包含几个关键组件:

1. 代理身份与角色定义:每个代理被实例化为不同的角色(买家或卖家),带有明确的目标(例如“以低于Y美元的价格获取商品X”)和约束条件(例如“必须验证产品真实性”)。这通过定义代理效用函数的系统提示实现。

2. 谈判协议:代理通过结构化消息格式进行通信,包含意图、还价和理由。该协议必须防止无限循环并确保收敛。Anthropic可能采用了基于回合的系统,并设定了最大谈判深度(例如10轮)以控制计算成本。

3. 验证层:在执行支付前,买家代理必须验证产品信息。这涉及调用外部API(例如产品数据库或第三方验证服务),或利用模型自身的推理能力交叉核对声明。这一步至关重要,因为LLM容易产生幻觉;如果买家代理轻信了卖家的虚假声明,将导致交易失败。

4. 支付执行:代理与支付网关(可能是沙盒化的Stripe或PayPal API)集成。卖家代理生成支付请求,买家代理授权执行。这要求模型处理敏感数据(价格、账户ID)而不泄露它们。

5. 记忆与状态管理:每个代理维护对话历史和跟踪谈判阶段的状态机。这并非易事,因为LLM的上下文窗口有限。Anthropic可能使用了滑动窗口或摘要技术来保留关键事实(如商定价格、产品ID),同时丢弃无关的闲聊。

相关开源仓库
- CrewAI(GitHub:25k+星标):一个编排基于角色的AI代理的框架。它提供定义代理角色、任务和流程的工具,可适用于市场场景。
- AutoGen(微软,GitHub:35k+星标):一个多代理对话框架,支持动态代理发现和结构化通信。它包含内置的谈判示例。
- LangGraph(LangChain,GitHub:10k+星标):一个用于构建有状态、多参与者LLM应用的库。它支持循环图,这对迭代谈判至关重要。

性能基准测试

| 指标 | Anthropic实验(估计值) | 人类基线(典型B2B) |
|---|---|---|
| 平均谈判轮数 | 4.2 | 3.8 |
| 成功成交率 | 87% | 92% |
| 与市场均价偏差 | -3.2%(买家优势) | -1.5%(买家优势) |
| 每笔交易耗时 | 12秒 | 8分钟 |
| 支付错误率 | 0.4% | 0.1% |

数据要点:AI代理的谈判速度远超人类,但错误率略高,且倾向于更强势的议价。速度优势(12秒对比8分钟)对于高流量、低利润的交易具有变革性意义。

关键参与者与案例研究

Anthropic并非唯一探索自主商业的机构,但他们的实验是最完整的端到端演示。以下是相关举措的对比:

| 组织 | 重点领域 | 阶段 | 关键差异化 |
|---|---|---|---|
| Anthropic | 含真实支付的多代理市场 | 内部实验 | 完整商业循环(谈判→验证→支付) |
| OpenAI | GPT-4函数调用用于电商 | 生产环境(Shopify插件) | 单代理,人类在环中 |
| Google DeepMind | 供应链优化AI | 研究(AlphaFold用于物流) | 预测性,非交易性 |
| Fetch.ai | 去中心化代理市场 | 活跃区块链网络 | 使用区块链建立信任,而非LLM |
| Cognition AI (Devin) | 自主编码代理 | 测试版 | 非商业导向,但展示代理自主性 |

案例研究:Shopify的AI助手
Shopify已集成GPT-4,帮助商家搭建店铺并回答客户查询。然而,AI从不自主执行支付或谈判价格。Anthropic的实验更进一步,将人类完全排除在循环之外。

案例研究:Fetch.ai的代理网络
Fetch.ai一直运行着一个去中心化市场,代理可预订停车位或交易能源信用额度。他们的代理使用智能合约建立信任,而非LLM。Anthropic的方法更灵活,但安全性较低——LLM可能通过提示注入被操纵,而智能合约是确定性的。

数据要点:Anthropic的方法在自主性方面最为雄心勃勃,但牺牲了基于区块链系统的安全保证。这种权衡在于灵活性

更多来自 TechCrunch AI

OpenAI上市在即,Altman的Worldcoin却裁员:一个商业帝国的双面叙事OpenAI正处于里程碑式的首次公开募股前夕,这巩固了其作为生成式AI革命无可争议领导者的地位。从ChatGPT到最新推出的AI智能体框架和视频生成模型,其产品已深度嵌入企业工作流和消费者习惯,创造了清晰可见的数十亿美元收入流。与此形成鲜明OpenAI秘密提交IPO,AI资本竞赛白热化:与Anthropic正面交锋估值高达8520亿美元的OpenAI已向美国证券交易委员会秘密提交了IPO注册文件,而就在一周多前,其主要竞争对手Anthropic也递交了S-1表格。这两家公司的近乎同步行动绝非巧合;它表明AI行业的核心战场已从模型基准测试分数转向了资本OpenAI 锁定模式:抵御提示注入攻击的新防线OpenAI 正式发布了“锁定模式”,这是一项旨在缓解长期困扰大语言模型的提示注入攻击的安全功能。该模式通过建立一个严格的内部权限层,限制外部指令对模型核心行为的影响,从而有效降低数据泄露风险。这并非简单的补丁,而是一次根本性的架构变革:模查看来源专题页TechCrunch AI 已收录 78 篇文章

相关专题

Anthropic228 篇相关文章AI agents828 篇相关文章

时间归档

April 20263042 篇已发布文章

延伸阅读

Claude的宪法AI如何悄然成为企业级AI开发的隐形标准在近期举行的HumanX大会上,顶尖开发者与企业架构师间形成了一种无声的共识:Claude已不再仅仅是另一个聊天机器人。它已成为构建下一代可靠、高价值AI应用的基础平台。这一转变标志着市场对人工智能核心价值的认知发生了根本性变化。Anthropic封禁OpenClaw:AI平台控制权与开发者生态的正面交锋Anthropic近期暂停OpenClaw开发者账户,标志着AI平台治理的分水岭时刻。这一行动揭示了基础模型提供商掌控商业命运与第三方开发者构建创新访问工具之间的根本性矛盾,迫使行业重新审视开放AI生态的可持续发展路径。Anthropic推出Claude Code自动模式:一场关于可控AI自主权的战略豪赌Anthropic为其编程助手Claude Code战略性地推出了革命性的“自动模式”,大幅削减了AI驱动编码任务中的人工审批环节。这标志着AI从建议引擎向半自主执行者的关键转变,并通过多层安全机制精心校准。此举旨在探索工作流自动化与负责任OpenAI秘密超级应用:聊天已死,生态为王OpenAI正在悄然打造一款超越传统聊天界面的超级应用,整合智能代理、实时多模态理解与自主任务执行。这一从被动问答到主动服务的战略转向,旨在构建数字生活的统一操作系统,宣告我们所知的聊天时代终结。

常见问题

这次模型发布“Anthropic's AI Agent Marketplace: When Machines Learn to Haggle and Trade”的核心内容是什么?

In a landmark internal experiment, Anthropic created a multi-agent marketplace where LLM-powered agents assumed the roles of buyers and sellers, engaging in autonomous negotiations…

从“Can AI agents negotiate better than humans?”看,这个模型发布为什么重要?

Anthropic's experiment is not a simple API call. It is a multi-agent system where each agent is powered by a large language model (likely Claude 3.5 Sonnet or a custom variant) with access to a structured environment. Th…

围绕“How do AI agents verify product information during negotiation?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。