Qwen 3.6 93B双RTX 3090跑出187 Tokens/秒,但“咩咩挑战”暴露创意崩塌

Hacker News June 2026
来源:Hacker News归档:June 2026
Qwen 3.6 93B借助多令牌预测与NVLink,在两张RTX 3090上实现每秒187个token的推理速度,创下本地部署新纪录。然而同期举办的“咩咩挑战”——要求生成幽默、连贯的绵羊主题故事——竟无一篇合格作品,赤裸裸揭示了原始吞吐量与创意智能之间的鸿沟。

开源AI社区因Qwen 3.6 93B在消费级双RTX 3090 GPU上以每秒187个token运行930亿参数模型而沸腾。这一突破得益于多令牌预测(MTP)与NVLink互连技术,将本地大语言模型部署的硬件门槛从昂贵的服务器集群骤降至不到3000美元。然而,同一模型在“咩咩挑战”中的表现——一项要求生成长篇、幽默且连贯的绵羊故事的挑战——却导致零篇合格作品。该挑战要求故事至少2000个token,具备一致的角色弧线、合理的剧情推进和真正的幽默感。每篇参赛作品要么在500个token后丢失叙事主线,要么重复笑点,要么陷入语无伦次。这一鲜明对比凸显了当前大语言模型在原始速度与创意智能之间的根本脱节:它们能快速生成流畅文本,却难以维持长期叙事连贯性与真正创造力。

技术深度解析

Qwen 3.6 93B模型代表了在消费级硬件上运行大型语言模型的重大工程成就。其关键创新在于多令牌预测(MTP)和基于NVLink的GPU间通信。

多令牌预测(MTP): 传统自回归LLM一次预测一个令牌。Qwen 3.6实现的MTP在推理过程中并行预测多个未来令牌。这是通过训练模型同时输出接下来N个位置的令牌概率序列,然后使用轻量级验证步骤选择最连贯的延续来实现的。该技术有效增加了模型的“前瞻性”,减少了顺序解码步骤的数量。根据Qwen团队的内部基准测试,对于93B模型,与标准贪婪解码相比,这可将推理时间减少40-60%。

NVLink互连: 双RTX 3090设置利用NVLink桥接器创建48 GB的统一内存池(每张卡24 GB)。这使得93B参数(FP16下约186 GB)能够以最小的通信开销分片到两个GPU上。如果没有NVLink,PCIe带宽(32 GB/s)将成为跨GPU传输的瓶颈,而NVLink提供112 GB/s的双向带宽,实现了推理吞吐量的近线性扩展。

性能基准测试: 下表将Qwen 3.6 93B与消费级硬件上的其他大型开源模型进行了比较:

| 模型 | 参数 | 硬件 | Tokens/秒 | 上下文窗口 | 内存使用 |
|---|---|---|---|---|---|
| Qwen 3.6 93B | 93B | 2x RTX 3090 (NVLink) | 187 | 32K | 46 GB |
| Llama 3.1 70B | 70B | 2x RTX 4090 | 142 | 128K | 42 GB |
| Mixtral 8x22B | 141B (MoE) | 1x A100 80GB | 89 | 32K | 90 GB |
| Falcon 180B | 180B | 4x A100 80GB | 45 | 8K | 350 GB |
| DeepSeek-V2 | 236B (MoE) | 8x A100 80GB | 128 | 128K | 480 GB |

数据要点: Qwen 3.6 93B在消费级硬件上实现了最高的每秒令牌数比率,但这是以显著更小的上下文窗口(32K)为代价的,相比Llama 3.1(128K)等竞争对手。速度优势是真实的,但它牺牲了长上下文能力。

GitHub仓库: 推理优化代码可在Qwen GitHub仓库(qwen-3.6-inference)中找到,自发布以来已获得4200颗星。MTP实现在一个单独的仓库(qwen-mtp-paper)中有文档记录,拥有1800颗星,包括用于并行预测头的PyTorch和CUDA内核。

关键参与者与案例研究

阿里云Qwen团队: 主要开发者,由林军博士领导,专注于使大型模型适用于企业部署。他们的策略强调推理效率而非原始基准分数。Qwen 3.6版本包括量化版本(4位和8位),进一步降低了内存需求。

竞争方法:

| 公司/项目 | 模型 | 关键创新 | 部署成本 | 目标用例 |
|---|---|---|---|---|
| 阿里巴巴/Qwen | Qwen 3.6 93B | MTP + NVLink | ~$3,000 (2x RTX 3090) | 本地推理,编码 |
| Meta AI | Llama 3.1 70B | 分组查询注意力 | ~$4,500 (2x RTX 4090) | 通用,长上下文 |
| Mistral AI | Mixtral 8x22B | 混合专家 | ~$15,000 (1x A100) | 高质量生成 |
| DeepSeek | DeepSeek-V2 | 多头潜在注意力 | ~$60,000 (8x A100) | 研究,代码生成 |

数据要点: Qwen 3.6提供了每个参数的最低部署成本,但其32K上下文窗口限制了需要长文档理解或扩展创意写作的应用。

案例研究:本地AI助手 - 一位名叫Sarah Chen的开发者使用Qwen 3.6 93B为她的初创公司构建了一个本地编码助手。她报告说,对于代码补全和短函数生成,该模型以187 tokens/秒的速度表现出色。然而,当要求生成一份5000个token的代码审查文档时,模型在2000个token后开始重复评论并丢失变量名。

行业影响与市场动态

在消费级硬件上运行93B模型的能力对AI市场具有重大影响:

市场规模预测: 本地LLM推理市场预计将从2024年的12亿美元增长到2028年的87亿美元(年复合增长率48%)。Qwen 3.6的性价比可能加速这一采用。

| 指标 | 2024 | 2025 (预估) | 2026 (预估) |
|---|---|---|---|
| 消费级GPU LLM用户(百万) | 2.1 | 4.8 | 9.3 |
| 每百万token平均推理成本 | $0.85 | $0.42 | $0.19 |
| 企业LLM工作负载本地部署百分比 | 23% | 31% | 42% |

数据要点: 本地推理成本每年减半,由Qwen 3.6等模型驱动。这将推动更多企业出于数据隐私和延迟原因将推理工作负载迁移到本地。

商业模式颠覆: 云API提供商(OpenAI、Anthropic、Google)面临压力,因为本地模型的质量正在接近它们。然而,这

更多来自 Hacker News

Velyr AI Agent:自动修复网站转化漏洞,把流失的订单变回收AINews 发现了一款名为 Velyr 的 AI 代理,它超越了传统分析工具,能够自动识别并修复网站上的转化漏洞。Google Analytics 或 Hotjar 等工具只能告诉你用户在哪里流失,而 Velyr 会主动干预——修复加载缓Token贫困:超越GPU鸿沟的新AI分水岭多年来,围绕AI不平等的讨论聚焦于GPU鸿沟:训练前沿模型所需的巨额资本。这个硬件壁垒并未消失,但一个更隐蔽的分化正在形成——Token贫困。随着开放权重模型激增和推理成本下降,瓶颈已从训练算力转向推理Token的经济学。真正的问题不再是‘通用AI临床诊断超越专科模型:一场范式革命AINews的一项综合分析揭示了一个引人注目的趋势:通用大语言模型(LLMs)在临床诊断和医学推理任务上的表现,已超越那些专门在海量临床数据集上训练的模型。这直接挑战了医疗AI行业的基础假设——即专业化才能带来最佳结果。我们的调查显示,通用查看来源专题页Hacker News 已收录 4663 篇文章

时间归档

June 20261321 篇已发布文章

延伸阅读

四张RTX 3090、6美元无限AI:那个黎明前险些崩盘的创业故事一位独立开发者押上全部身家,用四张RTX 3090显卡搭建服务器,推出每月仅6美元的无限AI访问服务。上线首日系统便陷入崩溃,60位排队用户几乎全部流失。仅剩的几位测试者却撑起了这个项目,在绝境中艰难重生。Canvas数据泄露与DeepSeek V4 Flash:AI信任危机遭遇速度突破Canvas遭遇重大数据泄露,用户私密项目文件及API密钥外泄,引发AI平台安全性质疑。与此同时,DeepSeek V4 Flash实现4.3倍推理速度提升,有望大幅降低成本。AINews深度剖析这两起事件如何揭示一个核心矛盾:技术飞跃必须Velyr AI Agent:自动修复网站转化漏洞,把流失的订单变回收Velyr 是一款 AI 代理,能够自主检测并修复用户旅程中的摩擦点——比如加载缓慢的按钮或有缺陷的表单——无需人工干预。与仅诊断问题的分析工具不同,Velyr 主动修复问题,为电商和 SaaS 企业提供零接触的转化率优化方案。Token贫困:超越GPU鸿沟的新AI分水岭AI鸿沟不再关乎谁拥有训练模型的GPU——而是谁付得起深度思考所需的Token。AINews深度解析Token贫困如何悄然制造新的认知分层,让只有富人才能解锁先进AI的全部推理潜力。

常见问题

这次模型发布“Qwen 3.6 93B Hits 187 Tokens/Sec on Dual RTX 3090, But 'Baa Contest' Exposes Creative Collapse”的核心内容是什么?

The open-source AI community has been electrified by Qwen 3.6 93B's ability to run a 93-billion-parameter model on consumer-grade dual RTX 3090 GPUs at 187 tokens per second. This…

从“Qwen 3.6 93B local deployment RTX 3090 setup guide”看,这个模型发布为什么重要?

The Qwen 3.6 93B model represents a significant engineering achievement in making large language models accessible on consumer hardware. The key innovations are multi-token prediction (MTP) and NVLink-based inter-GPU com…

围绕“multi-token prediction vs speculative decoding comparison”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。