四张RTX 3090、6美元无限AI:那个黎明前险些崩盘的创业故事

Hacker News June 2026
来源:Hacker News归档:June 2026
一位独立开发者押上全部身家,用四张RTX 3090显卡搭建服务器,推出每月仅6美元的无限AI访问服务。上线首日系统便陷入崩溃,60位排队用户几乎全部流失。仅剩的几位测试者却撑起了这个项目,在绝境中艰难重生。

这是一个堪称AI基础设施创业警示录的故事。一位独立开发者以每月6美元的价格推出无限AI服务,背后仅靠四张NVIDIA RTX 3090显卡组成的家用集群。他的野心是通过大幅压低价格,让大型语言模型(LLM)的访问权真正普及。然而,消费级硬件的现实很快给了他一记重拳。服务上线后,系统陷入“死亡循环”——显存瓶颈、热降频、推理延迟飙升,导致服务几乎无法使用。原本60位满怀期待加入等待名单的用户,在数小时内几乎全部放弃。只有一小群坚韧的测试者留了下来,他们愿意忍受不稳定,只为换取前所未有的低成本访问。这个项目在几乎不可能的情况下,正一步步爬回正轨。

技术深度解析

失败的核心在于RTX 3090的架构与多用户LLM推理服务需求之间的根本性错配。每张RTX 3090拥有24GB显存和35.58 TFLOPS的理论FP16算力。对于单用户场景,运行Llama 3 8B或Mistral 7B等模型并采用适当量化,完全足够。但“无限”承诺意味着要同时处理数十名用户的并发请求。

“死亡循环”的发生,是因为推理服务器(很可能使用了vLLM或Text Generation Inference)试图将多个请求批处理到一次前向传播中。当批处理大小超过阈值时,RTX 3090的936 GB/s内存带宽成为瓶颈。每个新请求都需要将模型权重和键值(KV)缓存加载到显存中。开发者尝试用四张卡通过张量并行对模型进行分片,但PCIe 4.0 x16链路(单向约32 GB/s)成为次级瓶颈,引入的延迟尖峰导致系统停滞。

热降频使问题雪上加霜。RTX 3090的TDP为350W,在多GPU配置且缺乏企业级散热的情况下,显卡迅速达到85°C,触发时钟频率降低。这导致推理吞吐量下降高达40%,积压的待处理请求压垮了调度器。

相关GitHub仓库:
- vLLM (github.com/vllm-project/vllm):最流行的开源推理引擎。其PagedAttention算法旨在优化KV缓存内存,但在RTX 3090上,内存碎片化仍会在负载下导致OOM错误。该仓库拥有超过45,000颗星,并得到积极维护。
- llama.cpp (github.com/ggerganov/llama.cpp):一个在消费级硬件上高效运行的CPU+GPU推理框架。它使用量化(Q4_K_M)将更大模型适配到24GB显存中。开发者本可用它进行单流推理,但在并发用户场景下会面临困难。
- TensorRT-LLM (github.com/NVIDIA/TensorRT-LLM):NVIDIA的优化后端。虽然功能强大,但部署到非数据中心GPU上需要大量工程投入。

性能数据表:

| 配置 | 最大并发用户数 | 平均延迟(每token) | 显存占用 | 热降频时间 |
|---|---|---|---|---|
| 单张RTX 3090(Llama 3 8B Q4) | 1-2 | 25ms | 6.5 GB | 无 |
| 4x RTX 3090(vLLM,张量并行) | 5-8 | 180ms | 22 GB/卡 | 12分钟后 |
| 4x RTX 3090(llama.cpp,轮询) | 4-6 | 90ms | 8 GB/卡 | 20分钟后 |
| 1x A100 80GB(基准) | 50+ | 15ms | 40 GB | 从未 |

数据要点: 使用最常见的vLLM的4x RTX 3090配置,在延迟变得不可用前,只能处理5-8个并发用户。而A100虽然贵20倍,却能处理10倍的用户,延迟低12倍。硬件差距不是线性的——而是指数级的。

关键参与者与案例研究

这个故事是一个更大趋势的缩影:试图与OpenAI、Anthropic和Google等超大规模企业竞争的“车库AI”初创公司的崛起。这位仅以“AICrafter”为名的开发者,代表了一个日益壮大的独立工程师群体,他们相信民主化的AI需要去中心化的基础设施。

与现有服务的对比:

| 服务 | 价格(每100万token) | 硬件 | 可靠性 | 用户基数 |
|---|---|---|---|---|
| OpenAI GPT-4o | $5.00(输入)/ $15.00(输出) | 定制集群 | 99.9% 正常运行时间 | 数百万 |
| Anthropic Claude 3.5 | $3.00(输入)/ $15.00(输出) | 定制集群 | 99.9% 正常运行时间 | 数百万 |
| Together AI | $0.50(Llama 3 8B) | A100/H100集群 | 99.5% 正常运行时间 | 数千 |
| AICrafter的服务 | $6/月(无限) | 4x RTX 3090 | 约70% 正常运行时间(第一周) | <10活跃用户 |

数据要点: 价格差距巨大。AICrafter每月6美元的无限计划,大致相当于每100万token仅0.0002美元(假设每月使用3000万token),比OpenAI便宜25,000倍。但可靠性的权衡是显而易见的:70%的正常运行时间对比99.9%。

案例研究:“混沌层级”用户

幸存下来的用户是一个独特的人群。他们不是企业或专业人士,而是爱好者、研究人员和修补匠,他们看重的是访问权而非稳定性。一位计算语言学博士生告诉AINews,这项服务让他能够运行数千次文本生成实验,而这些实验在OpenAI上可能要花费500美元以上。他将频繁的崩溃视为低价的“特性”。这让人想起云计算早期,AWS以90%的折扣提供竞价实例,但存在被终止的风险。

行业影响与市场动态

这个实验暴露了AI市场的一个关键缺口:在免费但有限速的服务(如ChatGPT免费版)和昂贵的企业API之间,存在一个“缺失的中间地带”。每月6美元的无限模式如果能够稳定下来,可能会颠覆当前的定价结构。

市场数据表:

| 细分市场 | 典型价格 | 目标用户 | 痛点 |
|---|---|---|---|
| 免费层(ChatGPT Free) | $0 | 普通用户 | 速率限制、功能受限 |
| 中端(API按量付费) | $0.50-$15/百万token | 开发者、中小企业 | 成本随使用量线性增长 |
| 企业级(定制合同) | $20-$100/用户/月 | 大型企业 | 高成本、锁定效应 |
| AICrafter模式(假设稳定) | $6/月无限 | 重度个人用户、研究者 | 可靠性、扩展性 |

数据要点: AICrafter模式瞄准的是被现有定价结构忽视的重度个人用户。如果能够实现99%的正常运行时间,它可能会迫使中端市场重新定价。但硬件成本是残酷的:一张A100的价格可以买20张RTX 3090,而后者在性能上无法与之匹敌。

更多来自 Hacker News

AI审判AI:多模态大模型如何重塑质量控制新秩序曾局限于文本领域的“大模型即法官”范式,如今正以爆发之势闯入多模态疆域。随着生成式AI产出日益复杂的视觉与听觉内容,传统评估方法——如图像的FID分数或文本的BLEU指标——已明显力不从心。AINews调查发现,一场深刻的变革正在发生:企业克劳德化学家:Anthropic的AI如何掌握分子合成推理Anthropic凭借其Claude模型实现了一项突破,将其从通用语言模型转变为能够设计复杂化学合成路径的专业科学推理引擎。与以往依赖检索和重组现有文献的AI方法不同,Claude现在展现出评估反应可行性、预测副产物以及在路径受阻时提出替代AI的第一人称视角:自我中心世界模型如何重新定义具身智能多年来,AI世界模型一直基于第三人称视频数据进行训练——像体育场里的观众一样从外部观察世界。这种方法让模型能够预测物体轨迹和人类行为,但本质上缺失了一个关键要素:智能体自身的能动性。最近的一项突破性演示改变了这一范式。研究人员展示了一个AI查看来源专题页Hacker News 已收录 4656 篇文章

时间归档

June 20261303 篇已发布文章

延伸阅读

Gemma 4 E4B 登顶:本地AI部署的新王者如何取代Qwen谷歌Gemma 4 E4B正悄然取代Qwen,成为本地AI部署的首选模型。通过注意力机制架构优化与量化兼容性革新,E4B在消费级GPU上实现30%显存节省且不牺牲质量,标志着部署实用性超越基准分数的全新时代。DwarfStar分布式推理:大模型正从云端巨头“蜂拥”至边缘节点DwarfStar是一种全新的分布式推理架构,它将大语言模型的计算任务拆分到数百个轻量级节点上,从而打破了GPU集群的垄断。这一从集中式云到去中心化“蜂群”的范式转变,有望大幅降低延迟、实现AI民主化,并解锁边缘端的实时AI能力。AI Foundry 推出无限推理订阅服务,或颠覆大模型定价模式AI Foundry 推出了一项基于 NVIDIA Blackwell GPU 的固定月费无限 LLM 推理订阅服务,直接挑战当前主流的按 token 计费模式。此举瞄准了需要高频 AI 工作负载且追求可预测成本的开发者和企业,可能标志着 本地LLM速度计算器揭示:显存带宽才是GPU真正的瓶颈一款全新开源的速度计算器,能精准预测消费级GPU上本地大语言模型的推理速度。基于真实基准测试,它揭示出显存带宽而非算力才是主要瓶颈,挑战了“显存越大越好”的传统观念,正在重塑边缘AI的硬件选型逻辑。

常见问题

这次公司发布“Four RTX 3090s, $6 Unlimited AI: The Startup That Nearly Broke Before Dawn”主要讲了什么?

In a story that reads like a cautionary tale for AI infrastructure startups, a solo developer launched an unlimited AI service priced at $6 per month, powered by a home-built clust…

从“RTX 3090 LLM inference death loop fix”看,这家公司的这次发布为什么值得关注?

The core of the failure lies in the fundamental mismatch between the RTX 3090's architecture and the demands of serving a multi-user LLM inference service. Each RTX 3090 has 24GB of VRAM and a theoretical FP16 compute of…

围绕“cheapest unlimited AI API service 2025”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。