技术深度解析
Manifest的架构建立在声明式路由的原则之上。开发者定义其任务和约束,系统的路由器则做出实时决策。核心组件包括:
1. 统一接口(`Manifest`类): 一个单一的客户端,抽象了特定于提供商的SDK和API格式。
2. 路由器与负载均衡器: 系统的大脑。它采用一个可以使用多种策略的决策引擎:
* 成本优先路由: 选择满足最低性能阈值(例如,在类似任务的验证集上的准确率)的最便宜模型。
* 成本上限下的性能优先: 选择性能最佳的模型,但不会超过定义的每令牌成本。
* 后备链: 尝试使用主模型处理请求;如果失败(速率限制、停机)或性能不佳(基于输出长度或置信度分数等启发式方法),则自动使用备用模型重试。
* 任务类型检测: 使用轻量级分类器(可能是另一个小型LLM调用或传统ML模型)对传入的提示进行分类(例如,“摘要”、“代码生成”、“创意写作”),并将其匹配到为该类别预配置的最佳模型。
3. 缓存层: 实现语义缓存,如果之前处理过语义相似的查询,则返回缓存结果,完全绕过LLM调用,从而在重复查询上实现巨大的成本节约。
4. 遥测与分析: 记录每次调用的成本、延迟和结果,以便持续优化路由规则。
该系统宣称的70%成本削减可能源于对合适任务积极使用小型模型、高缓存命中率以及避免对过度操作使用高级模型。其在GitHub(`mnfst/manifest`)的开源性质允许社区驱动扩展到新提供商和更复杂的路由算法。
一个关键的技术细节是其对非统一定价的处理。提供商对输入与输出令牌的收费不同,有些还对上下文窗口收取额外费用。Manifest的路由器必须将这些成本标准化为可比较的“每任务成本”指标。此外,它还必须考虑非价格因素,如区域可用性、数据隐私法律(例如,在没有保障措施的情况下,不将欧盟用户数据路由到美国提供商)以及模型特定功能(如函数调用或视觉能力)。
| 路由策略 | 主要优化目标 | 最适合场景 | 相比GPT-4默认方案潜在成本节省 |
|---|---|---|---|
| 严格成本最小化 | 最低即时成本 | 高吞吐量、低风险任务(内容审核、简单标记) | 80-90% |
| 平衡(成本/性能) | 每准确度点的成本 | 通用问答、客户支持、文档分析 | 60-75% |
| 性能保障型 | 预算内的最大性能 | 复杂分析、战略规划、敏感任务 | 30-50% |
| 仅后备 | 可靠性与正常运行时间 | 成本次要的关键任务应用 | 0-10% |
数据要点: 路由策略的选择并非一刀切;它是针对具体应用的权衡。Manifest的价值在于使这些策略易于配置,允许单个应用为不同的内部模块使用多种策略。
主要参与者与案例研究
Manifest在一个蓬勃发展的LLM编排工具生态系统中运作。其直接竞争对手包括:
* LiteLLM: 一个类似的代理服务器,标准化了跨提供商的API接口。虽然LiteLLM在标准化和基本后备方面表现出色,但Manifest以更复杂、可编程的路由逻辑定位自己。
* OpenAI自身的路由器(概念性): OpenAI理论上可以将此功能构建到其API中,提供一个“最适合任务”的端点,在其自身模型(GPT-3.5、GPT-4、o1)之间进行内部路由。这将把收入保留在其生态系统内。
* 云供应商解决方案: AWS Bedrock Agents、Google Vertex AI和Azure AI Studio提供了模型花园概念,但主要设计目的是将用户锁定在各自的云和模型市场中,而不是为跨提供商成本进行优化。
* Portkey: 一个专注于可观测性和路由的商业产品,提供带有分析功能的托管服务。Manifest的开源方法与Portkey的SaaS模式形成对比。
案例研究 - AI客户支持代理: 考虑一家每月处理100万次客户查询的初创公司部署聊天机器人。对所有查询使用GPT-4,估计平均每次查询成本为0.06美元,导致每月账单为60,000美元。通过实施Manifest,并制定规则将简单的FAQ检索(占查询的70%)路由到GPT-3.5-Turbo(平均成本0.0015美元),仅将复杂的升级问题发送给GPT-4,混合成本降至约15,000美元,实现了75%的削减。这使得商业模式变得可行。
案例研究 - 内容生成平台: 一家营销机构使用AI进行……(原文此处中断)。