RelaxAI 将推理成本削减 80%:挑战 OpenAI 与 Claude 的主导地位

Hacker News May 2026
来源:Hacker NewsAI inference归档:May 2026
英国初创公司 RelaxAI 推出主权大语言模型推理服务,声称成本仅为 OpenAI 和 Anthropic Claude 的 20%。通过优化推理架构并利用本地基础设施,该服务以极低价格提供企业级性能,直接挑战美国科技巨头的定价权。

总部位于英国的 AI 初创公司 RelaxAI 发布了一项主权大语言模型推理服务,声称相比 OpenAI 和 Anthropic 的产品,成本降低 80%。该公司通过先进量化技术、推测性解码和动态批处理的组合实现这一目标,所有计算均在英国数据中心运行,确保符合 GDPR 合规要求。此举直接挑战美国 AI 巨头的定价霸权,并标志着向本地化、高性价比 AI 基础设施的转变。虽然独立基准测试尚未公布,但 RelaxAI 的方法可能为欧洲企业普及实时 AI 应用(如客户服务和文档分析)铺平道路。其“主权”标签迎合了日益增长的数据主权担忧,可能为欧洲企业提供更安全、更经济的 AI 解决方案。

技术深度解析

RelaxAI 声称的 80% 成本削减并非简单的价格战,而是精心设计的推理堆栈的成果。该公司尚未开源其完整架构,但基于技术披露和行业分析,几项关键创新脱颖而出。

先进量化: RelaxAI 采用专有的混合精度量化方案,将模型权重从 FP16 降至 INT4/INT8,且无明显精度损失。与标准的训练后量化不同,其方法使用针对企业用例(如法律文档摘要、客户支持)定制的自适应校准数据集。这将内存带宽需求降低多达 4 倍,直接减少每 token 成本。

推测性解码: 该服务使用一个更小、更快的“草稿”模型生成候选 token,然后由主模型进行验证。这项由 DeepMind 等机构推广的技术,在延迟敏感场景中可实现 2-3 倍的加速。RelaxAI 声称已根据输入复杂度动态优化草稿模型选择,进一步提升了效率。

动态批处理与连续批处理: 与静态批处理大小不同,RelaxAI 的推理服务器采用连续批处理,请求到达即处理,最大化 GPU 利用率。这与流行的开源推理引擎 vLLM(GitHub: vllm-project/vllm,超过 30,000 星标)中使用的技术类似。然而,RelaxAI 声称添加了专有调度算法,优先处理低延迟请求而不牺牲吞吐量。

基础设施优化: 通过在英国数据中心运行(可能使用 AWS 或 Azure 的伦敦区域),RelaxAI 避免了跨大西洋数据传输成本和延迟。更重要的是,它利用了更便宜的可再生能源和本地税收优惠,进一步增强了成本优势。

基准测试声明: RelaxAI 在其博客上发布了初步性能数据。虽然需要独立验证,但数字令人瞩目:

| 指标 | RelaxAI | OpenAI GPT-4o | Anthropic Claude 3.5 Sonnet |
|---|---|---|---|
| 每 100 万输入 token 成本 | $1.00 | $5.00 | $3.00 |
| 每 100 万输出 token 成本 | $4.00 | $15.00 | $15.00 |
| 延迟(平均,100 tokens) | 350ms | 400ms | 380ms |
| MMLU 分数(声称) | 87.2 | 88.7 | 88.3 |

数据要点: RelaxAI 的成本优势明显,但 MMLU 分数略低。对于许多企业应用而言,1-2% 的精度下降与 80% 的成本削减之间的权衡是可以接受的,尤其是对于高容量、实时任务。

关键参与者与案例研究

RelaxAI 并非在真空中运作。其他几家参与者也在追求类似的成本削减策略,但尚未有公司声称实现如此显著的节省。

竞争对手:
- Together AI: 提供具有竞争力的推理 API 定价(Llama 3 70B 约为 $0.50/100 万 token),但缺乏“主权”角度。
- Fireworks AI: 专注于使用优化模型进行快速推理,但定价仍高于 RelaxAI 的声称。
- Groq: 使用定制 LPU 硬件实现超低延迟,但成本与 OpenAI 相当。
- 欧洲挑战者: 德国初创公司 Aleph Alpha 和法国 Mistral AI 提供主权 AI,但价格更高。

案例研究:欧洲企业采用
假设一家大型德国保险公司每月处理 1000 万客户查询。使用 OpenAI GPT-4o,成本约为每月 50,000 美元(假设每次查询 500 tokens)。使用 RelaxAI,相同工作负载的成本为每月 10,000 美元,每年节省 480,000 美元。此外,由于数据留在英国/欧盟,GDPR 合规性得以简化,降低了法律开销。

对比表格:

| 特性 | RelaxAI | OpenAI | Anthropic | Mistral AI |
|---|---|---|---|---|
| 主权(欧盟数据) | 是 | 否 | 否 | 是 |
| 每 100 万 token 成本(输入) | $1.00 | $5.00 | $3.00 | $2.50 |
| 模型大小(估计) | ~70B | ~200B | ~200B | ~70B |
| 开源模型 | 否 | 否 | 否 | 是(Mistral 7B) |
| 延迟(平均) | 350ms | 400ms | 380ms | 450ms |

数据要点: RelaxAI 的低成本与数据主权组合赋予其独特地位,但闭源性质可能让一些开源倡导者望而却步。

行业影响与市场动态

RelaxAI 的进入可能从多个方面重塑 AI 推理市场。

定价压力: 最直接的影响是定价。如果 RelaxAI 能维持质量,OpenAI 和 Anthropic 可能被迫降价,尤其是针对欧洲客户。这可能引发价格战,使消费者受益,但挤压 AI 公司的利润空间。

主权 AI 运动: RelaxAI 的“主权”品牌迎合了日益增长的地缘政治趋势。欧盟的 AI 法案和 GDPR 创造了有利于本地供应商的监管护城河。我们可能会看到其他地区(如东南亚、拉丁美洲)出现一波类似的初创公司,提供本地化推理服务。

市场规模: 全球 AI 推理市场预计到 2027 年将达到 500 亿美元。RelaxAI 的定价模式可能加速企业采用,尤其是在欧洲,因为数据主权和成本效益是关键驱动因素。然而,长期成功取决于独立基准测试的验证、模型质量的持续改进以及应对潜在监管挑战的能力。

更多来自 Hacker News

无标题A new open-source research paper, led by a team from MIT and the University of Cambridge, has systematically demonstrateWhichLLM:开源工具精准匹配AI模型与你的硬件配置开源项目WhichLLM应运而生,为日益突出的痛点提供了实用解决方案:如何针对特定硬件配置选择最佳本地大语言模型。随着AI推理从云端向边缘设备迁移——受隐私担忧、延迟要求和不断攀升的API成本驱动——开发者和企业面临从Llama到MistrGlycemicGPT:开源AI起义,打破糖尿病护理的僵局当一位患有1型糖尿病的软件工程师无法让他的内分泌科医生审阅数月来的连续血糖监测(CGM)数据时,他没有仅仅提交一份投诉——他亲手构建了一个解决方案。结果就是GlycemicGPT,一个开源的、自托管的AI平台,它将来自Dexcom G7 C查看来源专题页Hacker News 已收录 3436 篇文章

相关专题

AI inference20 篇相关文章

时间归档

May 20261634 篇已发布文章

延伸阅读

瑞典Grunden挑战OpenAI:主权AI推理与绿色算力的北欧宣言一家名为Grunden的瑞典AI推理初创公司,推出了完全兼容OpenAI的API,并将所有计算基础设施锚定在斯堪的纳维亚半岛。这一举措直接回应了欧洲企业对数据主权和低延迟的迫切需求,在由美国主导的云服务之外,开辟了一条合规、绿色的替代路径。AI推理:硅谷旧规则为何在新战场上彻底失效多年来,AI行业一直以为推理会遵循与训练相同的成本曲线。但我们的分析揭示了一个截然不同的现实:推理对延迟敏感、受内存带宽限制,并且需要一套全新的软硬件堆栈。这一转变正在重塑芯片设计、云定价以及整个AI商业模式。M5 Pro MacBook Pro变身本地LLM服务器:开发者工作站化身AI推理引擎一位开发者的实测表明,搭载48GB统一内存的M5 Pro MacBook Pro,能够以亚秒级响应时间运行本地LLM驱动的编程服务器。这标志着端侧AI开发工具迎来转折点,实现了无需云端依赖、保护隐私的离线代码补全。AI推理市场大分裂:达尔文式专业化重塑竞争格局一刀切的AI推理时代正在终结。AINews深度分析揭示,一场达尔文式的市场分裂正在上演——针对延迟、吞吐量或单任务成本进行优化的专业化推理栈,正在形成决定性的竞争优势,迫使整个AI市场进行根本性重构。

常见问题

这次公司发布“RelaxAI Slashes Inference Costs 80%: Challenging OpenAI and Claude's Dominance”主要讲了什么?

RelaxAI, a UK-based AI startup, has launched a sovereign large language model inference service that it claims reduces costs by 80% compared to offerings from OpenAI and Anthropic.…

从“RelaxAI inference cost comparison vs OpenAI”看,这家公司的这次发布为什么值得关注?

RelaxAI's claimed 80% cost reduction is not a simple price war but the result of a carefully engineered inference stack. The company has not open-sourced its full architecture, but based on technical disclosures and indu…

围绕“RelaxAI sovereign AI GDPR compliance”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。