技术深度解析
核心问题在于现代AI代理的架构。大多数生产系统遵循“ReAct”模式(推理+行动),其中LLM反复生成思考、决定行动(如调用API、搜索数据库)、观察结果,然后再次推理。每个循环都是一次完整的LLM推理调用。
以一个处理退款请求的简单客服代理为例,流程可能如下:
1. 用户: “我想退款订单#12345。”(1次LLM调用:意图分类)
2. 代理: “让我查一下您的订单详情。”(1次LLM调用:规划行动)
3. 工具调用: API获取订单状态。(无LLM成本,但有延迟)
4. 代理: “我看到订单已送达。您能确认收到了吗?”(1次LLM调用:生成澄清)
5. 用户: “收到了,但商品损坏了。”
6. 代理: “我需要核实损坏政策。”(1次LLM调用:推理)
7. 工具调用: 政策数据库查询。
8. 代理: “我可以处理退货。请提供照片。”(1次LLM调用:生成回复)
9. 用户上传照片。
10. 代理: “照片已收到。正在发起退货。”(1次LLM调用:最终行动)
这是一个相对简单的任务,却需要5次LLM调用。每次调用都有成本——对于GPT-4o或Claude 3.5 Sonnet,每次调用通常为0.01至0.05美元,具体取决于输入/输出token。此次交互的总成本为:0.05至0.25美元。大多数SaaS公司每个客服工单的平均收入为0.00美元(这是一个成本中心)。即使公司对每次自动解决收取1美元的固定费用,简单案例的利润也极其微薄,而复杂案例则直接亏损。
| 任务复杂度 | 平均LLM调用次数 | 平均成本(GPT-4o) | 平均成本(Claude 3.5 Sonnet) | 平均成本(GPT-4o-mini) |
|---|---|---|---|---|
| 单一意图(如“我的余额是多少?”) | 1-2 | $0.01 - $0.03 | $0.01 - $0.02 | $0.001 - $0.003 |
| 多步骤(如“退款订单#X”) | 4-7 | $0.08 - $0.35 | $0.06 - $0.25 | $0.004 - $0.02 |
| 复杂工作流(如“改签我的航班+酒店”) | 8-15 | $0.40 - $1.50 | $0.30 - $1.00 | $0.02 - $0.08 |
| 错误恢复(如API失败,重新规划) | 12-25+ | $1.00 - $5.00+ | $0.80 - $3.50+ | $0.05 - $0.20+ |
数据要点: 成本曲线并非线性——而是超线性。仅错误恢复一项就可能使成本增加3-5倍。使用更便宜的模型(GPT-4o-mini)有所帮助,但往往会降低推理质量,导致更多错误和更多调用——形成恶性循环。
开源项目如LangChain(GitHub:10万+星标)和AutoGPT(GitHub:17万+星标)普及了这些模式,但也暴露了成本问题。例如,LangChain的默认代理执行器并未尝试缓存或批处理LLM调用。而像CrewAI(GitHub:3万+星标)这样的项目则通过顺序运行多个代理(每个代理都有自己的调用链)进一步加剧了问题。结果是系统功能强大,但在规模上经济上不可持续。
主要参与者与案例研究
多家公司正在应对这一挑战,成效各异。
Intercom的Fin(客服代理)最初在所有步骤中使用GPT-4。早期采用者报告每次解决成本为0.50-1.00美元。Intercom的应对措施是引入“分层模型”方法:简单查询使用微调的小型模型(成本:约0.005美元),而复杂查询则升级到GPT-4。这使平均成本降低了60%,但复杂案例仍然无法盈利。
Salesforce的Einstein GPT(用于销售和服务)面临类似问题。其代理处理多步骤任务,如潜在客户资格认定或案例升级。内部估计表明,单个复杂案例的LLM推理成本可能高达2.00美元,而每个案例的平均收入(通过订阅定价)不足0.50美元。Salesforce目前正大力投资“代理路由”——决定是否需要LLM的确定性规则。
| 公司 | 产品 | 复杂任务平均成本 | 每任务收入 | 利润率 | 关键策略 |
|---|---|---|---|---|---|
| Intercom | Fin | $0.50 - $1.00 | $0.20(每次解决费) | 负值 | 分层模型升级 |
| Salesforce | Einstein GPT | $1.50 - $2.50 | $0.40(订阅分配) | 负值 | 确定性预过滤 |
| Zendesk | Answer Bot (AI) | $0.30 - $0.80 | $0.15(每次解决费) | 负值 | 混合人工介入 |
| Ada | Ada AI Agent | $0.20 - $0.60 | $0.25(每次对话) | 接近零 | 微调小型模型 |
| 某初创公司(匿名) | 代码生成代理 | 每任务$5.00 - $20.00 | 每任务$10.00(固定费用) | 复杂任务为负值 | 按使用量定价(将成本转嫁给用户) |
数据要点: 没有任何主要玩家能在复杂代理任务上实现正向单位经济性。唯一盈利的场景仅限于简单、单一意图的查询。“按使用量”定价模式(按token或调用收费)只是将亏损转嫁给客户,而客户则面临同样的经济问题。
Microsoft的Copilot(用于Office 365)则是一个不同的存在。它