Qwen 3.6 93B双RTX 3090跑出187 Tokens/秒，但“咩咩挑战”暴露创意崩塌

2026年6月14日 21:31 AINews Hacker News June 2026

来源：Hacker News 归档：June 2026

Qwen 3.6 93B借助多令牌预测与NVLink，在两张RTX 3090上实现每秒187个token的推理速度，创下本地部署新纪录。然而同期举办的“咩咩挑战”——要求生成幽默、连贯的绵羊主题故事——竟无一篇合格作品，赤裸裸揭示了原始吞吐量与创意智能之间的鸿沟。

开源AI社区因Qwen 3.6 93B在消费级双RTX 3090 GPU上以每秒187个token运行930亿参数模型而沸腾。这一突破得益于多令牌预测（MTP）与NVLink互连技术，将本地大语言模型部署的硬件门槛从昂贵的服务器集群骤降至不到3000美元。然而，同一模型在“咩咩挑战”中的表现——一项要求生成长篇、幽默且连贯的绵羊故事的挑战——却导致零篇合格作品。该挑战要求故事至少2000个token，具备一致的角色弧线、合理的剧情推进和真正的幽默感。每篇参赛作品要么在500个token后丢失叙事主线，要么重复笑点，要么陷入语无伦次。这一鲜明对比凸显了当前大语言模型在原始速度与创意智能之间的根本脱节：它们能快速生成流畅文本，却难以维持长期叙事连贯性与真正创造力。

技术深度解析

Qwen 3.6 93B模型代表了在消费级硬件上运行大型语言模型的重大工程成就。其关键创新在于多令牌预测（MTP）和基于NVLink的GPU间通信。

多令牌预测（MTP）： 传统自回归LLM一次预测一个令牌。Qwen 3.6实现的MTP在推理过程中并行预测多个未来令牌。这是通过训练模型同时输出接下来N个位置的令牌概率序列，然后使用轻量级验证步骤选择最连贯的延续来实现的。该技术有效增加了模型的“前瞻性”，减少了顺序解码步骤的数量。根据Qwen团队的内部基准测试，对于93B模型，与标准贪婪解码相比，这可将推理时间减少40-60%。

NVLink互连： 双RTX 3090设置利用NVLink桥接器创建48 GB的统一内存池（每张卡24 GB）。这使得93B参数（FP16下约186 GB）能够以最小的通信开销分片到两个GPU上。如果没有NVLink，PCIe带宽（32 GB/s）将成为跨GPU传输的瓶颈，而NVLink提供112 GB/s的双向带宽，实现了推理吞吐量的近线性扩展。

性能基准测试： 下表将Qwen 3.6 93B与消费级硬件上的其他大型开源模型进行了比较：

| 模型 | 参数 | 硬件 | Tokens/秒 | 上下文窗口 | 内存使用 |
|---|---|---|---|---|---|
| Qwen 3.6 93B | 93B | 2x RTX 3090 (NVLink) | 187 | 32K | 46 GB |
| Llama 3.1 70B | 70B | 2x RTX 4090 | 142 | 128K | 42 GB |
| Mixtral 8x22B | 141B (MoE) | 1x A100 80GB | 89 | 32K | 90 GB |
| Falcon 180B | 180B | 4x A100 80GB | 45 | 8K | 350 GB |
| DeepSeek-V2 | 236B (MoE) | 8x A100 80GB | 128 | 128K | 480 GB |

数据要点： Qwen 3.6 93B在消费级硬件上实现了最高的每秒令牌数比率，但这是以显著更小的上下文窗口（32K）为代价的，相比Llama 3.1（128K）等竞争对手。速度优势是真实的，但它牺牲了长上下文能力。

GitHub仓库： 推理优化代码可在Qwen GitHub仓库（qwen-3.6-inference）中找到，自发布以来已获得4200颗星。MTP实现在一个单独的仓库（qwen-mtp-paper）中有文档记录，拥有1800颗星，包括用于并行预测头的PyTorch和CUDA内核。

关键参与者与案例研究

阿里云Qwen团队： 主要开发者，由林军博士领导，专注于使大型模型适用于企业部署。他们的策略强调推理效率而非原始基准分数。Qwen 3.6版本包括量化版本（4位和8位），进一步降低了内存需求。

竞争方法：

| 公司/项目 | 模型 | 关键创新 | 部署成本 | 目标用例 |
|---|---|---|---|---|
| 阿里巴巴/Qwen | Qwen 3.6 93B | MTP + NVLink | ~$3,000 (2x RTX 3090) | 本地推理，编码 |
| Meta AI | Llama 3.1 70B | 分组查询注意力 | ~$4,500 (2x RTX 4090) | 通用，长上下文 |
| Mistral AI | Mixtral 8x22B | 混合专家 | ~$15,000 (1x A100) | 高质量生成 |
| DeepSeek | DeepSeek-V2 | 多头潜在注意力 | ~$60,000 (8x A100) | 研究，代码生成 |

数据要点： Qwen 3.6提供了每个参数的最低部署成本，但其32K上下文窗口限制了需要长文档理解或扩展创意写作的应用。

案例研究：本地AI助手 - 一位名叫Sarah Chen的开发者使用Qwen 3.6 93B为她的初创公司构建了一个本地编码助手。她报告说，对于代码补全和短函数生成，该模型以187 tokens/秒的速度表现出色。然而，当要求生成一份5000个token的代码审查文档时，模型在2000个token后开始重复评论并丢失变量名。

行业影响与市场动态

在消费级硬件上运行93B模型的能力对AI市场具有重大影响：

市场规模预测： 本地LLM推理市场预计将从2024年的12亿美元增长到2028年的87亿美元（年复合增长率48%）。Qwen 3.6的性价比可能加速这一采用。

| 指标 | 2024 | 2025 (预估) | 2026 (预估) |
|---|---|---|---|
| 消费级GPU LLM用户（百万） | 2.1 | 4.8 | 9.3 |
| 每百万token平均推理成本 | $0.85 | $0.42 | $0.19 |
| 企业LLM工作负载本地部署百分比 | 23% | 31% | 42% |

数据要点： 本地推理成本每年减半，由Qwen 3.6等模型驱动。这将推动更多企业出于数据隐私和延迟原因将推理工作负载迁移到本地。

商业模式颠覆： 云API提供商（OpenAI、Anthropic、Google）面临压力，因为本地模型的质量正在接近它们。然而，这

时间归档

常见问题

这次模型发布“Qwen 3.6 93B Hits 187 Tokens/Sec on Dual RTX 3090, But 'Baa Contest' Exposes Creative Collapse”的核心内容是什么？

The open-source AI community has been electrified by Qwen 3.6 93B's ability to run a 93-billion-parameter model on consumer-grade dual RTX 3090 GPUs at 187 tokens per second. This…

从“Qwen 3.6 93B local deployment RTX 3090 setup guide”看，这个模型发布为什么重要？

The Qwen 3.6 93B model represents a significant engineering achievement in making large language models accessible on consumer hardware. The key innovations are multi-token prediction (MTP) and NVLink-based inter-GPU com…

围绕“multi-token prediction vs speculative decoding comparison”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。