技术深度解析
Cloudflare的转型不仅是业务重组,更是一次深层的架构迁移:从为静态和动态网页优化的内容分发网络,转向为有状态、低延迟AI推理设计的分布式计算平台。核心技术挑战在于,自主AI代理与人类网页浏览器不同,它们需要持久、长连接的会话。人类可能在200毫秒内加载一个网页并离开;而执行复杂任务(如自动代码审查或多步骤数据分析)的AI代理,可能会保持会话打开数分钟甚至数小时,持续发送和接收小批量的推理结果。
为应对这一需求,Cloudflare正全力投入其Workers平台,特别是Durable Objects,后者在边缘提供强一致性、低延迟的状态存储。这对许多AI代理至关重要,因为它们需要在多次推理调用之间维护上下文,而无需往返中央数据库。该公司还大力投资Workers AI,该服务在分布式GPU网络(最初为NVIDIA A10G和T4,计划引入更新硬件)上运行推理。关键指标是首令牌时间(TTFT)和端到端延迟。对人类浏览而言,500毫秒的TTFT可以接受;但对编排实时工作流的AI代理来说,超过50毫秒就可能导致循环中断。
另一个关键层面是机器身份。Cloudflare现有的Zero Trust平台(包括双向TLS(mTLS)和设备状态检查)正被重新利用,不仅用于验证人类用户,还用于验证AI代理。这涉及向代理颁发短期加密凭证,确保只有授权代码才能调用推理端点。开源社区也在探索这一领域;例如,Spiffe/Spire项目(CNCF)提供了工作负载身份框架,但Cloudflare正在构建一个专有且紧密集成的版本。
在推理优化方面,Cloudflare正利用量化(FP16到INT8)和推测解码来降低延迟。他们还开源了部分推理栈,但核心部分仍为专有。一个值得关注的GitHub仓库是cloudflare/workerd(Workers运行时),其围绕AI特定绑定的活动显著增加。该仓库已获得超过6000颗星,是边缘运行JavaScript/WASM工作负载的基础,但AI转型需要扩展它以原生支持GPU加速推理。
| 指标 | 面向人类的CDN | AI代理边缘计算 | 需求差异 |
|---|---|---|---|
| 会话持续时间 | ~10秒 | 10分钟以上 | 长60倍 |
| 首令牌时间 | 200-500毫秒 | <50毫秒 | 快4-10倍 |
| 状态持久性 | 无状态(缓存) | 有状态(Durable Objects) | 架构转变 |
| 身份模型 | 人类(OAuth、Cookie) | 机器(mTLS、SPIFFE) | 新协议栈 |
| 计算原语 | HTTP请求/响应 | GPU推理调用 | 硬件依赖 |
数据要点: 该表表明,AI代理的技术要求并非渐进式改进,而是在会话管理、延迟和身份方面数量级的转变。Cloudflare现有基础设施是为左列构建的;转型需要为右列重建,这解释了其大刀阔斧的重组。
关键参与者与案例研究
Cloudflare并非孤军奋战,但其方法独一无二。主要竞争对手包括Amazon Web Services(AWS)及其Lambda@Edge和Wavelength(用于5G边缘)、Fastly及其Compute@Edge平台,以及Akamai及其EdgeWorkers。然而,没有一家像Cloudflare那样明确押注AI代理。AWS的AI战略集中于集中化区域的SageMaker和Bedrock,而非边缘推理。Fastly专注于无服务器计算,但缺乏GPU支持。Akamai转型较慢。
一个关键案例是Replit,这款在线IDE使用AI代理进行代码补全和部署。Replit最初构建了自己的推理基础设施,但已越来越多地转向Cloudflare Workers,在边缘提供轻量级AI模型,从而降低远离AWS数据中心的用户的延迟。另一个案例是Perplexity AI,它使用Cloudflare的AI Gateway管理其搜索代理的速率限制和缓存,但仍依赖集中式GPU集群进行重型推理。
| 平台 | 边缘GPU支持 | 有状态计算 | 机器身份 | AI特定定价 |
|---|---|---|---|---|
| Cloudflare Workers AI | 是(A10G、T4) | 是(Durable Objects) | 是(Zero Trust mTLS) | 按推理次数,$0.01/千令牌 |
| AWS Lambda@Edge | 否(仅CPU) | 否(无状态) | 部分(IAM) | 按请求,$0.60/百万请求 |
| Fastly Compute@Edge | 否(仅CPU) | 是(KV存储) | 否 | 按请求,$0.50/百万请求 |
| Akamai EdgeWorkers | 否(仅CPU) | 否(无状态) | 部分 | 按请求,$0.40/百万请求 |
数据要点: