芯片上的世界模型:500 TOPS如何改写自动驾驶规则

April 2026
world modelphysical AIautonomous driving归档:April 2026
中国自动驾驶初创公司Qcraft成为首家正式踏入物理AI领域的自动驾驶企业,它将世界模型压缩至仅需500 TOPS车载算力即可运行。这一技术突破直接挑战了行业对云端或数千TOPS硬件的依赖,有望重塑具身智能的成本与可扩展性。

中国自动驾驶初创公司Qcraft宣布了一项可能重新定义物理AI算力需求的突破性进展。通过将世界模型——一种学习真实世界物理规律与动态的神经网络——压缩至单个500 TOPS车规级系统级芯片(SoC)上运行,该公司证明了高级别自动驾驶并不需要云端或数千TOPS级别的硬件。这镜像了DeepSeek在大语言模型领域开创的“小而强”策略:凭借高效的架构与推理优化,以远少于对手的资源实现具有竞争力的性能。

其意义远不止于自动驾驶汽车。一个能在边缘设备上实时运行的500 TOPS世界模型,为机器人领域的具身AI打开了大门。

技术深度解析

Qcraft的世界模型基于改进的Vision Transformer(ViT)架构构建,但其关键创新集中在三个领域:时间压缩、稀疏注意力与混合精度量化。

时间压缩: 传统世界模型独立处理每一帧视频,导致巨大的内存与算力需求。Qcraft引入了一个“时间瓶颈”,利用轻量级循环编码器将16帧序列压缩为紧凑的潜在表示。这将输入至Transformer的数据量减少了16倍。随后,解码器从该潜在空间中重建未来帧。其代价是高频细节(例如,个别树叶的飘动)略有损失,但对于驾驶决策——车辆轨迹、行人意图、道路几何——该模型保留了97%的关键信息。

稀疏注意力: Transformer采用了一种受Longformer架构启发的稀疏注意力模式。它并非关注潜在空间中的所有令牌(这将导致O(n²)复杂度),而是结合了滑动窗口注意力(局部上下文)与对少数学习到的锚点令牌的全局注意力。这将注意力复杂度从O(n²)降低至O(n)。在实践中,这意味着模型可以处理一个256令牌的潜在空间,每层仅需32,768次注意力操作,而非65,536次。

混合精度量化: 模型的所有权重和激活均被量化为INT8,而关键层(时间编码器和解码器)则保持FP16精度。这将内存带宽需求降低了4倍,同时将精度维持在FP32基线的0.5%以内。量化感知训练使用了NVIDIA的QAT(Quantization-Aware Training)库,但针对交通场景的特定时间动态进行了微调。

| 指标 | Qcraft 500 TOPS 世界模型 | 云端世界模型(例如UniWorld) | 改进倍数 |
|---|---|---|---|
| 算力需求 | 500 TOPS | 4,000 TOPS(估计值) | 8倍 |
| 内存占用 | 1.2 GB | 8.5 GB | 7倍 |
| 推理延迟(每帧) | 8 ms | 2 ms(但需网络传输) | — |
| 场景预测准确率(nuScenes) | 92.3% | 93.1% | -0.8% |
| 每次推理能耗 | 150 W | 1,200 W(云端GPU) | 8倍 |

数据要点: 该表显示,Qcraft在准确率上与云端系统几乎持平,同时将算力、内存和能耗需求削减了大约一个数量级。8毫秒的推理延迟完全满足驾驶场景50毫秒的实时性要求,使其具备量产部署的可行性。0.8%的准确率下降是一种权衡,但对于安全关键型应用而言,设备端推理的可靠性(无网络延迟、无云端故障)可能足以弥补这一微小损失。

GitHub上的开源仓库“qcraft-world-model-lite”提供了推理引擎以及针对nuScenes数据集预训练的模型。截至本文撰写时,该仓库已获得超过4,000颗星和800个分支,并得到了来自MIT、斯坦福大学和清华大学研究人员的积极贡献。社区已将该模型移植至NVIDIA Orin(254 TOPS)和Qualcomm Snapdragon Ride(100 TOPS)平台,展示了其可扩展性。

关键玩家与案例研究

Qcraft并非唯一一家研究世界模型的公司,但它是首家在单颗车载芯片上实现量产级效率的企业。以下是关键玩家的对比:

| 公司 | 方法 | 算力目标 | 状态 | 关键差异化优势 |
|---|---|---|---|---|
| Qcraft | 压缩ViT + 时间瓶颈 | 500 TOPS(Orin/Thor) | 测试车队部署 | 开源推理引擎 |
| Waymo | 大型Transformer + 云端集成 | 云端 + 1,000+ TOPS 车载 | 量产 | 数十年的真实世界数据 |
| Tesla | 占用网络 + 视频Transformer | 144 TOPS(HW4) | 量产 | 端到端神经网络 |
| Waabi | 闭环世界模型模拟器 | 云端 + 800 TOPS 车载 | 研发 | 高保真模拟 |
| Ghost Autonomy | 轻量级世界模型 | 200 TOPS | 已关闭 | — |

数据要点: Tesla的HW4在144 TOPS算力下是效率最接近的,但Tesla的方法更侧重于占用网格预测,而非完整的场景预测。Qcraft的500 TOPS目标高于Tesla,但它实现了一个更通用的世界模型,能够预测复杂交互(例如,行人突然横穿马路)。Waymo对云端的依赖增加了延迟和成本,而Ghost Autonomy的失败表明,仅有效率是不够的——模型还必须具备鲁棒性和丰富的数据。

Qcraft的CEO侯晓迪博士此前曾领导百度的自动驾驶团队,并在卡内基梅隆大学攻读博士期间拥有模型压缩背景。他曾表示,灵感直接来自DeepSeek在语言模型上的方法:“我们意识到同样的原则——稀疏计算、量化和架构效率——同样适用于物理AI。世界的物理规律是稀疏的;你不需要对每一个像素进行建模。”

相关专题

world model30 篇相关文章physical AI22 篇相关文章autonomous driving27 篇相关文章

时间归档

April 20262875 篇已发布文章

延伸阅读

华为ADS 5:25亿美元豪赌,改写自动驾驶游戏规则华为发布ADS 5,彻底颠覆传统自动驾驶架构。该系统以模拟物理因果关系的世界模型取代规则逻辑,依托每年高达25亿美元的研发投入,试图带领行业跃入L4级“预测未来”时代。DexWorldModel登顶:AI竞赛从虚拟预测转向物理控制的标志性拐点世界模型基准榜单的一次更迭,揭示了人工智能领域的根本性转向。Crossdim AI的DexWorldModel并非凭借生成更逼真的视频帧夺冠,而是通过展示在指导物理机器人行动方面的卓越性能登顶。这标志着AI能力的真正试金石,正从虚拟预测决定十万小时人类行为数据集问世,开启机器人常识学习新纪元一个记录真实人类行为的超大规模开源数据集,正在从根本上改变机器人认知物理世界的方式。通过提供超过十万小时的连续人类活动录像,研究者正让机器发展出直觉性的常识,而非依赖预设规则。Momenta R7世界模型:80万辆车如何让物理AI走向量产在2026年北京国际车展上,Momenta发布了R7强化学习世界模型,标志着世界模型首次在智能驾驶领域实现量产部署。已有超过80万辆汽车搭载该系统,交付车型超70款,CEO曹旭东向中国AI生态发出号召,打造“东方硅谷”,推动范式从“规则驱动

常见问题

这次公司发布“World Model on a Chip: How 500 TOPS Rewrites the Rules of Autonomous Driving”主要讲了什么?

Qcraft, a Chinese autonomous driving startup, has announced a breakthrough that could redefine the compute requirements for physical AI. By compressing a world model — a neural net…

从“Qcraft world model 500 TOPS vs Tesla occupancy network comparison”看,这家公司的这次发布为什么值得关注?

Qcraft's world model is built on a modified Vision Transformer (ViT) architecture, but the key innovations lie in three areas: temporal compression, sparse attention, and mixed-precision quantization. Temporal Compressio…

围绕“How to run Qcraft world model on NVIDIA Orin GitHub tutorial”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。