Sturnus 开源智能路由器:动态选择最快 LLM 提供商,零代码消除延迟痛点

Hacker News June 2026
来源:Hacker News归档:June 2026
Sturnus 是一款开源智能路由代理,它持续测量多个兼容 OpenAI 接口的 LLM 提供商的实时延迟,并自动将每个请求路由到最快的后端。无需修改任何代码,即可为开发者彻底解决提供商选择的难题。

随着大语言模型提供商的激增,开发者面临一个新的运营挑战:当多个服务提供兼容 API 时,如何持续获得最低的推理延迟。新发现的开源工具 Sturnus 直接解决了这一痛点。它作为一个轻量级代理层,位于应用程序与多个 LLM 后端(如 OpenAI、Anthropic 或本地模型)之间,持续对每个端点进行实时延迟和可用性探测。每次请求时,Sturnus 会根据当前的动态性能数据(而非静态权重)自动选择最优路由。这并非简单的负载均衡,而是一种智能路由策略,能够自适应拥塞、性能下降甚至完全故障,实现无缝故障转移。Sturnus 的出现标志着 LLM 基础设施栈正在经历一场根本性变革,类似于 CDN 抽象化全球服务器选择的复杂性,智能路由器正在抽象化 AI 推理中提供商选择的复杂性。

技术深度解析

Sturnus 的架构是一个透明的 HTTP 代理,实现了 OpenAI API 规范。当应用程序向 Sturnus 发送请求时,代理不会立即转发。相反,它会维护一个持续更新的所有上游提供商的延迟地图。核心机制是一个轻量级的健康检查和延迟探测程序,以可配置的间隔运行(默认每 5 秒一次)。每次探测会向每个提供商发送一个最小请求(例如,一个微小的补全请求或对 `/v1/models` 端点的 ping),并测量往返时间。这些测量值存储在一个滑动窗口中,Sturnus 应用一个简单但有效的选择算法:它选择最近 N 次探测中平均延迟最低的提供商,前提是该提供商处于健康状态(即在最近的时间窗口内没有返回错误或超时)。如果某个提供商连续失败,它会被暂时从候选池中移除,并定期重新检查。

从工程角度来看,Sturnus 避免了像 Kong 或 Envoy 这类功能全面的 API 网关的复杂性——它们过于臃肿且需要大量配置。相反,它是一个单一的 Go 二进制文件(或 Docker 镜像),可以作为 sidecar 容器与应用程序一起部署。GitHub 仓库(sturnus/sturnus)在最初几周内已获得超过 2300 颗星,显示出强烈的社区兴趣。代码库干净且模块化,包含独立的探测、路由和提供商管理包。它支持所有兼容 OpenAI 的端点,包括聊天补全、嵌入和图像生成,使其适用于各种用例。

社区进行的性能基准测试显示,Sturnus 引入的开销可以忽略不计——每个请求通常增加不到 5 毫秒的额外延迟,这远低于路由到更快提供商所带来的潜在收益。在一个包含三个提供商(OpenAI、Anthropic 和一个本地 vLLM 实例)的测试中,与静态轮询方法相比,Sturnus 将平均响应时间降低了 35%,与始终使用默认提供商相比降低了 20%。

| 指标 | 静态轮询 | 始终使用默认提供商 | Sturnus 智能路由 |
|---|---|---|---|
| 平均延迟 (ms) | 420 | 380 | 250 |
| P99 延迟 (ms) | 890 | 720 | 480 |
| 故障率 (%) | 2.1 | 1.5 | 0.3 |
| 开销 (ms) | 0 | 0 | 4.5 |

数据要点: 与最佳静态策略相比,Sturnus 实现了平均延迟降低 34%,P99 延迟降低 33%,故障率低至五分之一。开销极小,使其成为延迟敏感型应用的明确赢家。

关键参与者与案例研究

Sturnus 并非孤军奋战。市场上存在多种商业和开源替代方案,但 Sturnus 通过纯粹专注于延迟且与提供商无关的特性脱颖而出。主要竞争对手包括:

- OpenRouter:一项商业服务,聚合了多个 LLM 提供商,提供带有自动故障转移的统一 API。然而,它是一项托管服务,意味着所有流量都经过 OpenRouter 的服务器,引入了固定的网络跳转和潜在的隐私问题。Sturnus 是自托管的,数据保留在用户的基础设施内。
- LiteLLM:一个开源的 Python 库,为超过 100 个 LLM 提供商提供统一接口。它支持负载均衡和回退,但它是一个库而非代理,需要修改代码。Sturnus 无需任何代码更改。
- Portkey:一个商业 AI 网关,具有可观测性、缓存和路由功能。它功能更丰富,但也更复杂和昂贵。Sturnus 轻量且免费。
- 自定义解决方案:许多团队使用 Envoy 或 NGINX 配合自定义 Lua 脚本构建自己的路由逻辑。这既耗时又脆弱。Sturnus 提供了一个开箱即用的解决方案。

| 特性 | Sturnus | OpenRouter | LiteLLM | Portkey |
|---|---|---|---|---|
| 部署方式 | 自托管(Docker/二进制) | 托管 | 库 | 托管 |
| 是否需要代码更改 | 否 | 否 | 是 | 否 |
| 延迟优化 | 实时探测 | 静态路由 | 轮询 | 加权 |
| 隐私性 | 完全控制 | 数据离开网络 | 完全控制 | 数据离开网络 |
| 成本 | 免费 | 按 token 付费(加价) | 免费 | 订阅制 |
| 开源 | 是 | 否 | 是 | 否 |

数据要点: Sturnus 占据了一个独特的利基市场:它是唯一一个完全开源、自托管、零代码更改、纯粹专注于实时延迟优化的解决方案。对于优先考虑隐私和控制的开发者来说,它是最具吸引力的选择。

行业影响与市场动态

像 Sturnus 这样的工具的出现,标志着 LLM 基础设施栈正在发生根本性转变。正如 CDN 抽象化了全球服务器选择的复杂性一样,智能路由器正在抽象化 AI 推理中提供商选择的复杂性。这一切都发生在 LLM 提供商市场爆炸式增长的背景下。随着 OpenAI、Anthropic、Google、Meta 以及众多开源模型(如 Llama、Mistral、Falcon)的涌现,开发者面临着前所未有的选择困境。Sturnus 通过提供一个动态的、实时的路由层,将这种复杂性封装起来,让开发者可以专注于应用逻辑而非基础设施决策。

从市场动态来看,Sturnus 的开源特性可能会加速其采用,尤其是在对成本敏感和注重隐私的开发者社区中。它填补了商业解决方案(如 OpenRouter 和 Portkey)与 DIY 方案之间的空白。然而,Sturnus 也面临挑战:它需要用户自行维护和监控代理实例,并且其路由决策完全依赖于探测数据的准确性。在极端网络波动或探测间隔过长的情况下,路由选择可能不是最优的。尽管如此,Sturnus 代表了 LLM 工具链中一个重要的新类别,并且其社区增长表明它正在解决一个真实且紧迫的问题。

更多来自 Hacker News

PMB:为AI编程代理装上永久记忆,SQLite+本地优先设计颠覆云端依赖AINews发现AI编程代理领域的一项关键突破:PMB,一个基于SQLite和LanceDB构建的持久记忆系统。PMB解决的核心问题是当前AI工具的根本性无状态——大多数代理在每次对话后遗忘一切,无法跨会话保持上下文。PMB通过MCP协议直OpenPlan:AI代理界的Waze,破解多代理协作的“交通拥堵”AINews独家揭秘OpenPlan——一个全新的基础设施层,充当AI代理的实时导航系统。随着自主代理在云API、边缘设备和企业工作流中激增,它们越来越频繁地因共享资源(计算能力、API速率限制、数据访问和任务依赖)而发生冲突。OpenPl无标题DeepMind's newly published 'AI Control Roadmap' is a technical blueprint for governing autonomous agents. As AI agents b查看来源专题页Hacker News 已收录 5068 篇文章

时间归档

June 20262189 篇已发布文章

延伸阅读

LLM Router如何通过智能模型编排重塑AI编程经济学开源项目LLM Router正从根本上改变AI辅助编程的经济模型。它如同一个智能流量控制器,在昂贵的高端模型与平价替代方案之间动态调配任务,标志着AI工作流正朝着兼顾性能与成本效益的务实多模型协作模式演进。LLM路由器的崛起:智能编排如何重构AI架构AI应用开发正经历一场根本性的架构变革。创新者不再追逐单一的全能模型,而是构建智能路由器——一个轻量级的调度层,能动态分析查询并将其路由至专用的大型语言模型。这一范式转换有望在成本、速度与准确性上带来前所未有的提升。PMB:为AI编程代理装上永久记忆,SQLite+本地优先设计颠覆云端依赖PMB推出了一套本地优先的持久记忆系统,专为AI编程代理打造。它利用SQLite进行结构化存储,LanceDB进行向量索引,通过BM25关键词匹配、语义搜索和实体共现图三重检索,让代理能在跨会话中回忆相关记忆,无需云端依赖或API密钥。OpenPlan:AI代理界的Waze,破解多代理协作的“交通拥堵”OpenPlan正崛起为AI代理的实时导航层,借鉴Waze的众包逻辑优化多代理协作。通过共享状态与预测拥堵,它承诺将混乱的代理集群转化为有序、高效的网络。

常见问题

GitHub 热点“Sturnus Open Source Smart Router Dynamically Picks Fastest LLM Provider”主要讲了什么?

The proliferation of large language model providers has created a new operational challenge for developers: how to consistently achieve the lowest possible inference latency when m…

这个 GitHub 项目在“Sturnus vs OpenRouter latency comparison”上为什么会引发关注?

Sturnus is architected as a transparent HTTP proxy that implements the OpenAI API specification. When an application sends a request to Sturnus, the proxy does not immediately forward it. Instead, it maintains a continuo…

从“how to deploy Sturnus with Docker compose”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。