RelayAPI揭开AI API聚合的隐性成本:深度调查

GitHub July 2026
⭐ 2797📈 +966
来源:GitHubAI infrastructure归档:July 2026
一个名为RelayAPI的开源项目在一天内飙升至近2800个GitHub星标,承诺为混乱的AI API中继服务市场带来透明度。但当开发者蜂拥而至以削减成本时,真正的问题是这些中间商带来的风险是否超过了节省的收益。

RelayAPI并非又一个API提供商,而是一个策展与基准测试平台,它聚合了数十家AI API中继服务的信息——这些中间件公司位于开发者与OpenAI、Anthropic、Google等基础模型提供商之间。该项目提供标准化的延迟、正常运行时间和定价对比,旨在解决快速增长的API中继市场中严重的信息不对称问题。上线首日在GitHub上获得超过2700个星标,显然触动了行业的神经。中继市场本身已呈爆炸式增长,企业为规避供应商锁定并通过聚合器路由请求以降低成本——这些聚合器提供更便宜、缓存或批处理的模型访问。然而,RelayAPI自己的文档警告称,它本身并不运营任何中继服务。

技术深度解析

RelayAPI的核心是一个静态聚合工具,它从数十家中继服务中抓取或摄取API文档、定价页面和状态仪表板。然后,它将这些数据标准化为统一的对比表格。该项目的架构看似简单:一个基于Python的爬虫(可能使用BeautifulSoup或Scrapy)定期运行,输出结构化的JSON和Markdown文件,托管在GitHub Pages上。真正的技术挑战不在于爬取,而在于异构定价模型的标准化。

大多数中继服务采用三种定价策略之一:
- 加价模式:在基础模型提供商价格之上加收固定百分比(例如10-30%)。
- 分层缓存:对缓存响应(相同提示词)提供更便宜的价格,而非缓存请求则价格更高。
- 批量折扣:对非实时批量处理提供更低的每token成本。

RelayAPI试图揭示这些细微差别,但底层复杂性巨大。例如,某中继可能宣称“比GPT-4o便宜50%”,但这仅适用于缓存输出,且需承受2秒的延迟惩罚。如果没有实时测试,基准测试的准确性仅取决于最后一次爬取的数据。

更先进的方法将涉及对每个中继运行实际的推理请求,测量首token时间(TTFT)、吞吐量和错误率。一些商业工具如OpenRouter提供实时基准测试,但RelayAPI的社区驱动模式缺乏持续自动化测试的基础设施。该项目的GitHub仓库(zzsting88/relayapi)没有显示用于实时测试的CI/CD流水线——它依赖手动更新。

数据表:中继定价模型复杂性
| 中继服务 | 基础模型 | 广告价格(每百万token) | 缓存后实际价格 | 缓存延迟惩罚 |
|---|---|---|---|---|
| RelayA | GPT-4o | $2.50 | $1.75 | +800ms |
| RelayB | GPT-4o | $2.00 | $2.00 | 无 |
| RelayC | GPT-4o | $1.50 | $1.50(无缓存) | 不适用 |

数据要点: 广告价格往往具有误导性。RelayA的缓存折扣看起来很吸引人,但800ms的延迟惩罚对于实时应用可能不可接受。RelayC的固定价格透明,但没有任何缓存优势。开发者必须在延迟与成本之间做出权衡。

关键参与者与案例研究

API中继市场高度碎片化,参与者从个人开发者到风险投资支持的初创公司不等。关键参与者包括:

- OpenRouter:最成熟的聚合器,通过统一API提供超过100个模型的访问。已融资超过1000万美元,提供实时状态页面和使用分析。其弱点是大多数模型加价10-20%,且其正常运行时间受自身基础设施影响。
- Groq:虽然主要是一家硬件公司,但Groq的API充当其LPU芯片的中继,为特定模型提供极低延迟。它并非真正的多提供商中继,但经常在基准测试中被比较。
- Together AI:一个托管开源模型的云平台,为微调变体提供类似中继的API。已融资1.25亿美元,专注于推理优化。
- Novita AI:一家较小的中继,专注于无审查模型,并为小众用例提供有竞争力的定价。

RelayAPI列出了超过30家此类服务,但质量参差不齐。一家中型SaaS公司从直接使用OpenAI API切换到某匿名中继服务的案例研究显示,成本降低了35%,但API错误率(500错误和超时)增加了12%。该中继的缓存层为动态内容提供了过时的响应,导致了面向用户的问题。

数据表:中继服务可靠性对比
| 服务 | 正常运行时间(30天) | 平均延迟(TTFT) | 错误率 | 提供模型数量 |
|---|---|---|---|---|
| OpenRouter | 99.8% | 450ms | 1.2% | 100+ |
| Together AI | 99.9% | 320ms | 0.8% | 50+ |
| Novita AI | 99.2% | 680ms | 3.5% | 20 |
| 直接(OpenAI) | 99.95% | 280ms | 0.5% | 10 |

数据要点: 直接访问OpenAI仍然提供最佳的可靠性和延迟。中继带来的成本节省伴随着可衡量的服务质量下降。对于关键任务应用,这种权衡可能得不偿失。

行业影响与市场动态

API中继的兴起标志着AI基础设施层的成熟,类似于十年前云计算市场的发展。正如Cloudflare和Fastly等公司通过优化CDN交付而崛起,中继则优化了AI推理交付。该市场预计将从2024年的15亿美元增长到2027年的80亿美元,由企业对多模型策略和成本优化的需求驱动。

然而,这种增长引入了一个新的依赖:中继本身成为单点故障。如果OpenRouter宕机,所有依赖它的应用将失去对所有模型的访问。这种集中化风险让人联想到2023年OpenAI的宕机事件,那次事件瘫痪了依赖ChatGPT的应用。中继还引入了数据隐私问题——每个提示词都经过

更多来自 GitHub

SpCL镜像复活无监督ReID:自对比学习为何仍是关键拼图SpCL(自步对比学习)框架由Yixiao Ge等研究人员于2020年提出,至今仍是无监督行人重识别(ReID)领域的基石。GitHub上的镜像仓库(spcl-reid/spcl)提供了原始代码库的稳定可访问副本,该框架提出了一种全新范式:DeepAnalyze深度解析:首个自主数据科学智能体LLM,一天狂揽4200星DeepAnalyze由中国人民大学数据实验室(ruc-datalab)团队开发,被誉为首个专为自主数据科学设计的智能体大语言模型。该工具集成多智能体框架,能够接收原始数据集,执行数据清洗、探索性分析、统计建模,并生成全面报告——全部通过单暗黑天使FTC SDK深度解析:一支罗马尼亚团队如何打造机器人竞赛的软件利器chrisneagu/ftc-skystone-dark-angels-romania-2020仓库绝非官方FIRST Tech Challenge SDK的简单克隆。它代表了罗马尼亚Dark Angels团队在SKYSTONE(2019-查看来源专题页GitHub 已收录 3201 篇文章

相关专题

AI infrastructure336 篇相关文章

时间归档

July 202632 篇已发布文章

延伸阅读

LoongForge: Baidu's Unified Training Framework Challenges AI FragmentationBaidu's Baige cloud platform has released LoongForge, a modular training framework promising unified support for LLMs, VGo MCP SDK 宣告退役:ktr0731/go-mcp 如何为协议演进写下注脚社区驱动的类型安全 Go MCP SDK——ktr0731/go-mcp 正式退役,官方 modelcontextprotocol/go-sdk 接棒。AINews 深度拆解这一早期实现的技术遗产,以及它对协议标准化进程的深远启示。腾讯混元大模型开源:3890亿参数巨兽重塑中国AI格局腾讯正式开源Hunyuan-Large,一款拥有3890亿参数的混合专家(MoE)大语言模型,堪称中国AI生态迄今最重磅的贡献之一。其MoE架构设计与亮眼的基准测试表现,标志着中国科技巨头正以全新战略姿态推动AI商品化进程。DaoCloud镜像解锁Kubeflow中国部署:技术深度解析一个名为zhiyong-xu2/modify_kubeflow_manifest的GitHub项目,通过修改Kubeflow清单并利用DaoCloud的公共镜像代理,成功绕过中国网络限制,实现了MLOps平台的本地化部署。这一适配方案,折射

常见问题

GitHub 热点“RelayAPI Exposes the Hidden Cost of AI API Aggregation: A Deep Dive”主要讲了什么?

RelayAPI is not another API provider; it is a curation and benchmarking platform that aggregates information from dozens of AI API relay services—middleware companies that sit betw…

这个 GitHub 项目在“RelayAPI vs OpenRouter cost comparison”上为什么会引发关注?

At its core, RelayAPI is a static aggregation tool that scrapes or ingests API documentation, pricing pages, and status dashboards from dozens of relay services. It then normalizes this data into a unified comparison tab…

从“Best AI API relay for low latency”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 2797,近一日增长约为 966,这说明它在开源社区具有较强讨论度和扩散能力。