技术深度解析
Plano的架构围绕 AI原生数据平面 的概念构建。其核心是一个用Rust编写的高性能代理,选择Rust是看中其内存安全、并发支持和低延迟特性,这对实时智能体交互至关重要。该代理拦截所有在智能体、工具和LLM API之间的流量。在此数据平面之上,是一个用Python实现的控制平面,负责管理配置、策略执行和可观测性数据聚合。
关键的技术组件包括:
1. 智能LLM路由与故障转移:Plano实现了一套声明式路由系统。开发者可以基于成本、延迟、模型能力或自定义指标定义路由规则。例如,规则可以将所有分类任务路由到更经济的模型如GPT-3.5-Turbo,而将创意生成任务路由到Claude 3 Opus。至关重要的是,它支持自动故障转移——如果某个提供商宕机或达到速率限制,Plano可以无缝地将请求重新路由到备用方案。这是通过代理内部一个带健康检查的加权路由池实现的。
2. 内置编排引擎:与在提示词层面进行编排的高层框架不同,Plano在*服务*层面进行编排。它管理智能体实例的生命周期,通过发布-订阅或直接RPC模型处理智能体间通信,并在可能有状态的智能体交互中维护上下文/会话状态。它的编排重点不在于定义“链”,而在于管理自治服务的分布式运行时。
3. 基于策略的安全与治理:其策略引擎是一个核心特性。安全与合规规则(例如,“阻止智能体调用数据库写入工具”、“从所有日志中编辑个人身份信息”、“强制每个用户会话使用最大令牌预算”)被定义为代码(可能使用类似Open Policy Agent的Rego语言),并在代理层统一执行。这提供了一个关键的审计与控制点,否则这些规则将分散在应用代码中。
4. 统一可观测性:Plano为所有智能体活动发出结构化的追踪、指标和日志。它能自动追踪用户查询流经多个智能体和LLM调用的过程,提供类似于微服务中分布式追踪的统一视图。这对于调试复杂的、非确定性的智能体工作流以及进行成本归因至关重要。
| 基础设施维度 | 传统微服务代理(如Envoy) | Plano(AI原生代理) |
|---|---|---|
| 主要抽象对象 | HTTP/gRPC 服务 | AI智能体 & LLM端点 |
| 路由逻辑 | 主机/路径,请求头 | 模型能力、成本、延迟、令牌限制 |
| 可观测性焦点 | 延迟、HTTP状态码 | 令牌使用量、单次请求成本、LLM提供商错误、智能体步骤追踪 |
| 策略执行 | API密钥、速率限制、WAF | 提示词注入防护、输出内容过滤、工具使用策略、令牌预算 |
| 状态管理 | 无状态(会话粘性) | 针对多轮智能体对话的上下文/会话感知 |
核心洞察:此对比凸显了Plano的根本性转变:它理解AI工作负载的语义。其路由、可观测性和策略都是围绕AI原生概念(令牌、模型、提供商)构建的,而非通用的网络概念,从而提供了一个量身定制的基础设施层。
主要参与者与案例分析
智能体基础设施领域正逐渐分化为不同的层次。在框架层,LangChain和LlamaIndex主导着快速原型构建和链式编排。在平台层,谷歌、微软、亚马逊等公司提供了托管的、但往往有厂商锁定的环境。Plano则运作于新兴的基础设施层,旨在成为开放、可移植的底层基座,可以运行在任何地方——本地、任何云或跨云——同时与上层的框架和平台集成。
Katanemo的创始人,前AWS首席工程师,在构建大规模云原生分布式系统方面带来了深厚的信誉。他们的策略似乎是:先建立一个开源标准,构建社区,随后推出功能增强、有支持服务和更强可扩展性的企业托管版本——这是HashiCorp、Confluent等公司成功执行的模式。
直接竞争者正在浮现。Braintrust的AutoEval平台专注于智能体的评估与测试环节。Portkey是一个紧密的竞争对手,同样提供AI网关功能,包括路由、故障转移和可观测性,尽管其焦点更狭义地集中在LLM网关上,而非完整的智能体数据平面。Agno是另一个具有类似愿景的新进入者。未来的差异化将取决于性能、智能体特定功能的深度(如复杂的编排)以及开发者体验。
| 解决方案 | 主要焦点 | 编排能力 | 部署模型 |
|---|---|---|---|
| Plano (Katanemo) | AI原生基础设施层(数据平面/代理) | 服务级,分布式运行时管理 | 开源,可部署在任何地方 |
| Portkey | AI网关(LLM路由、可观测性) | 有限(主要关注LLM调用) | SaaS及自托管选项 |
| LangChain/LlamaIndex | 应用框架(链、智能体模板) | 提示词/链级编排 | 代码库,通常与平台结合 |
| AWS Bedrock Agents | 托管智能体平台 | 平台定义的工作流 | 完全托管,AWS云服务 |