RelayAPI揭开AI API聚合的隐性成本：深度调查

RelayAPI并非又一个API提供商，而是一个策展与基准测试平台，它聚合了数十家AI API中继服务的信息——这些中间件公司位于开发者与OpenAI、Anthropic、Google等基础模型提供商之间。该项目提供标准化的延迟、正常运行时间和定价对比，旨在解决快速增长的API中继市场中严重的信息不对称问题。上线首日在GitHub上获得超过2700个星标，显然触动了行业的神经。中继市场本身已呈爆炸式增长，企业为规避供应商锁定并通过聚合器路由请求以降低成本——这些聚合器提供更便宜、缓存或批处理的模型访问。然而，RelayAPI自己的文档警告称，它本身并不运营任何中继服务。

技术深度解析

RelayAPI的核心是一个静态聚合工具，它从数十家中继服务中抓取或摄取API文档、定价页面和状态仪表板。然后，它将这些数据标准化为统一的对比表格。该项目的架构看似简单：一个基于Python的爬虫（可能使用BeautifulSoup或Scrapy）定期运行，输出结构化的JSON和Markdown文件，托管在GitHub Pages上。真正的技术挑战不在于爬取，而在于异构定价模型的标准化。

大多数中继服务采用三种定价策略之一：
- 加价模式：在基础模型提供商价格之上加收固定百分比（例如10-30%）。
- 分层缓存：对缓存响应（相同提示词）提供更便宜的价格，而非缓存请求则价格更高。
- 批量折扣：对非实时批量处理提供更低的每token成本。

RelayAPI试图揭示这些细微差别，但底层复杂性巨大。例如，某中继可能宣称“比GPT-4o便宜50%”，但这仅适用于缓存输出，且需承受2秒的延迟惩罚。如果没有实时测试，基准测试的准确性仅取决于最后一次爬取的数据。

更先进的方法将涉及对每个中继运行实际的推理请求，测量首token时间（TTFT）、吞吐量和错误率。一些商业工具如OpenRouter提供实时基准测试，但RelayAPI的社区驱动模式缺乏持续自动化测试的基础设施。该项目的GitHub仓库（zzsting88/relayapi）没有显示用于实时测试的CI/CD流水线——它依赖手动更新。

数据表：中继定价模型复杂性
| 中继服务 | 基础模型 | 广告价格（每百万token） | 缓存后实际价格 | 缓存延迟惩罚 |
|---|---|---|---|---|
| RelayA | GPT-4o | $2.50 | $1.75 | +800ms |
| RelayB | GPT-4o | $2.00 | $2.00 | 无 |
| RelayC | GPT-4o | $1.50 | $1.50（无缓存） | 不适用 |

数据要点： 广告价格往往具有误导性。RelayA的缓存折扣看起来很吸引人，但800ms的延迟惩罚对于实时应用可能不可接受。RelayC的固定价格透明，但没有任何缓存优势。开发者必须在延迟与成本之间做出权衡。

关键参与者与案例研究

API中继市场高度碎片化，参与者从个人开发者到风险投资支持的初创公司不等。关键参与者包括：

- OpenRouter：最成熟的聚合器，通过统一API提供超过100个模型的访问。已融资超过1000万美元，提供实时状态页面和使用分析。其弱点是大多数模型加价10-20%，且其正常运行时间受自身基础设施影响。
- Groq：虽然主要是一家硬件公司，但Groq的API充当其LPU芯片的中继，为特定模型提供极低延迟。它并非真正的多提供商中继，但经常在基准测试中被比较。
- Together AI：一个托管开源模型的云平台，为微调变体提供类似中继的API。已融资1.25亿美元，专注于推理优化。
- Novita AI：一家较小的中继，专注于无审查模型，并为小众用例提供有竞争力的定价。

RelayAPI列出了超过30家此类服务，但质量参差不齐。一家中型SaaS公司从直接使用OpenAI API切换到某匿名中继服务的案例研究显示，成本降低了35%，但API错误率（500错误和超时）增加了12%。该中继的缓存层为动态内容提供了过时的响应，导致了面向用户的问题。

数据表：中继服务可靠性对比
| 服务 | 正常运行时间（30天） | 平均延迟（TTFT） | 错误率 | 提供模型数量 |
|---|---|---|---|---|
| OpenRouter | 99.8% | 450ms | 1.2% | 100+ |
| Together AI | 99.9% | 320ms | 0.8% | 50+ |
| Novita AI | 99.2% | 680ms | 3.5% | 20 |
| 直接（OpenAI） | 99.95% | 280ms | 0.5% | 10 |

数据要点： 直接访问OpenAI仍然提供最佳的可靠性和延迟。中继带来的成本节省伴随着可衡量的服务质量下降。对于关键任务应用，这种权衡可能得不偿失。

行业影响与市场动态

API中继的兴起标志着AI基础设施层的成熟，类似于十年前云计算市场的发展。正如Cloudflare和Fastly等公司通过优化CDN交付而崛起，中继则优化了AI推理交付。该市场预计将从2024年的15亿美元增长到2027年的80亿美元，由企业对多模型策略和成本优化的需求驱动。

然而，这种增长引入了一个新的依赖：中继本身成为单点故障。如果OpenRouter宕机，所有依赖它的应用将失去对所有模型的访问。这种集中化风险让人联想到2023年OpenAI的宕机事件，那次事件瘫痪了依赖ChatGPT的应用。中继还引入了数据隐私问题——每个提示词都经过

时间归档

延伸阅读

常见问题

GitHub 热点“RelayAPI Exposes the Hidden Cost of AI API Aggregation: A Deep Dive”主要讲了什么？

RelayAPI is not another API provider; it is a curation and benchmarking platform that aggregates information from dozens of AI API relay services—middleware companies that sit betw…

这个 GitHub 项目在“RelayAPI vs OpenRouter cost comparison”上为什么会引发关注？

At its core, RelayAPI is a static aggregation tool that scrapes or ingests API documentation, pricing pages, and status dashboards from dozens of relay services. It then normalizes this data into a unified comparison tab…

从“Best AI API relay for low latency”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 2797，近一日增长约为 966，这说明它在开源社区具有较强讨论度和扩散能力。