四张RTX 3090、6美元无限AI：那个黎明前险些崩盘的创业故事

Q: 围绕“cheapest unlimited AI API service 2025”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。

这是一个堪称AI基础设施创业警示录的故事。一位独立开发者以每月6美元的价格推出无限AI服务，背后仅靠四张NVIDIA RTX 3090显卡组成的家用集群。他的野心是通过大幅压低价格，让大型语言模型（LLM）的访问权真正普及。然而，消费级硬件的现实很快给了他一记重拳。服务上线后，系统陷入“死亡循环”——显存瓶颈、热降频、推理延迟飙升，导致服务几乎无法使用。原本60位满怀期待加入等待名单的用户，在数小时内几乎全部放弃。只有一小群坚韧的测试者留了下来，他们愿意忍受不稳定，只为换取前所未有的低成本访问。这个项目在几乎不可能的情况下，正一步步爬回正轨。

技术深度解析

失败的核心在于RTX 3090的架构与多用户LLM推理服务需求之间的根本性错配。每张RTX 3090拥有24GB显存和35.58 TFLOPS的理论FP16算力。对于单用户场景，运行Llama 3 8B或Mistral 7B等模型并采用适当量化，完全足够。但“无限”承诺意味着要同时处理数十名用户的并发请求。

“死亡循环”的发生，是因为推理服务器（很可能使用了vLLM或Text Generation Inference）试图将多个请求批处理到一次前向传播中。当批处理大小超过阈值时，RTX 3090的936 GB/s内存带宽成为瓶颈。每个新请求都需要将模型权重和键值（KV）缓存加载到显存中。开发者尝试用四张卡通过张量并行对模型进行分片，但PCIe 4.0 x16链路（单向约32 GB/s）成为次级瓶颈，引入的延迟尖峰导致系统停滞。

热降频使问题雪上加霜。RTX 3090的TDP为350W，在多GPU配置且缺乏企业级散热的情况下，显卡迅速达到85°C，触发时钟频率降低。这导致推理吞吐量下降高达40%，积压的待处理请求压垮了调度器。

相关GitHub仓库：
- vLLM (github.com/vllm-project/vllm)：最流行的开源推理引擎。其PagedAttention算法旨在优化KV缓存内存，但在RTX 3090上，内存碎片化仍会在负载下导致OOM错误。该仓库拥有超过45,000颗星，并得到积极维护。
- llama.cpp (github.com/ggerganov/llama.cpp)：一个在消费级硬件上高效运行的CPU+GPU推理框架。它使用量化（Q4_K_M）将更大模型适配到24GB显存中。开发者本可用它进行单流推理，但在并发用户场景下会面临困难。
- TensorRT-LLM (github.com/NVIDIA/TensorRT-LLM)：NVIDIA的优化后端。虽然功能强大，但部署到非数据中心GPU上需要大量工程投入。

性能数据表：

| 配置 | 最大并发用户数 | 平均延迟（每token） | 显存占用 | 热降频时间 |
|---|---|---|---|---|
| 单张RTX 3090（Llama 3 8B Q4） | 1-2 | 25ms | 6.5 GB | 无 |
| 4x RTX 3090（vLLM，张量并行） | 5-8 | 180ms | 22 GB/卡 | 12分钟后 |
| 4x RTX 3090（llama.cpp，轮询） | 4-6 | 90ms | 8 GB/卡 | 20分钟后 |
| 1x A100 80GB（基准） | 50+ | 15ms | 40 GB | 从未 |

数据要点： 使用最常见的vLLM的4x RTX 3090配置，在延迟变得不可用前，只能处理5-8个并发用户。而A100虽然贵20倍，却能处理10倍的用户，延迟低12倍。硬件差距不是线性的——而是指数级的。

关键参与者与案例研究

这个故事是一个更大趋势的缩影：试图与OpenAI、Anthropic和Google等超大规模企业竞争的“车库AI”初创公司的崛起。这位仅以“AICrafter”为名的开发者，代表了一个日益壮大的独立工程师群体，他们相信民主化的AI需要去中心化的基础设施。

与现有服务的对比：

| 服务 | 价格（每100万token） | 硬件 | 可靠性 | 用户基数 |
|---|---|---|---|---|
| OpenAI GPT-4o | $5.00（输入）/ $15.00（输出） | 定制集群 | 99.9% 正常运行时间 | 数百万 |
| Anthropic Claude 3.5 | $3.00（输入）/ $15.00（输出） | 定制集群 | 99.9% 正常运行时间 | 数百万 |
| Together AI | $0.50（Llama 3 8B） | A100/H100集群 | 99.5% 正常运行时间 | 数千 |
| AICrafter的服务 | $6/月（无限） | 4x RTX 3090 | 约70% 正常运行时间（第一周） | <10活跃用户 |

数据要点： 价格差距巨大。AICrafter每月6美元的无限计划，大致相当于每100万token仅0.0002美元（假设每月使用3000万token），比OpenAI便宜25,000倍。但可靠性的权衡是显而易见的：70%的正常运行时间对比99.9%。

案例研究：“混沌层级”用户

幸存下来的用户是一个独特的人群。他们不是企业或专业人士，而是爱好者、研究人员和修补匠，他们看重的是访问权而非稳定性。一位计算语言学博士生告诉AINews，这项服务让他能够运行数千次文本生成实验，而这些实验在OpenAI上可能要花费500美元以上。他将频繁的崩溃视为低价的“特性”。这让人想起云计算早期，AWS以90%的折扣提供竞价实例，但存在被终止的风险。

行业影响与市场动态

这个实验暴露了AI市场的一个关键缺口：在免费但有限速的服务（如ChatGPT免费版）和昂贵的企业API之间，存在一个“缺失的中间地带”。每月6美元的无限模式如果能够稳定下来，可能会颠覆当前的定价结构。

市场数据表：

| 细分市场 | 典型价格 | 目标用户 | 痛点 |
|---|---|---|---|
| 免费层（ChatGPT Free） | $0 | 普通用户 | 速率限制、功能受限 |
| 中端（API按量付费） | $0.50-$15/百万token | 开发者、中小企业 | 成本随使用量线性增长 |
| 企业级（定制合同） | $20-$100/用户/月 | 大型企业 | 高成本、锁定效应 |
| AICrafter模式（假设稳定） | $6/月无限 | 重度个人用户、研究者 | 可靠性、扩展性 |

数据要点： AICrafter模式瞄准的是被现有定价结构忽视的重度个人用户。如果能够实现99%的正常运行时间，它可能会迫使中端市场重新定价。但硬件成本是残酷的：一张A100的价格可以买20张RTX 3090，而后者在性能上无法与之匹敌。

时间归档

延伸阅读

常见问题

这次公司发布“Four RTX 3090s, $6 Unlimited AI: The Startup That Nearly Broke Before Dawn”主要讲了什么？

In a story that reads like a cautionary tale for AI infrastructure startups, a solo developer launched an unlimited AI service priced at $6 per month, powered by a home-built clust…

从“RTX 3090 LLM inference death loop fix”看，这家公司的这次发布为什么值得关注？

The core of the failure lies in the fundamental mismatch between the RTX 3090's architecture and the demands of serving a multi-user LLM inference service. Each RTX 3090 has 24GB of VRAM and a theoretical FP16 compute of…

围绕“cheapest unlimited AI API service 2025”，这次发布可能带来哪些后续影响？