腾讯开源世界模型2.0:一句话生成可编辑3D世界

April 2026
generative AIopen source AI归档:April 2026
腾讯正式开源多模态AI模型HY-World 2.0,仅凭简单文本描述即可生成完整且可编辑的3D场景。这标志着生成式AI正从创作媒体内容转向构建交互式数字环境的基础架构,对游戏、仿真及元宇宙领域将产生深远影响。

腾讯发布并开源HY-World 2.0模型,标志着生成式人工智能发展轨迹的一次决定性转折。与以往生成视频或静态3D对象的模型不同,HY-World 2.0是一个真正的“世界模型”——它作为多模态系统,能够消化文本、图像或视频输入,并输出一个包含物体、地形与光照、具有空间一致性的完整3D环境。其关键创新在于输出格式:模型直接生成网格、3D高斯泼溅(3DGS)和点云等行业标准3D资产,这些资产与Unity、Unreal Engine等主流游戏引擎完全兼容。此举成功弥合了AI想象力与实际生产管线之间的鸿沟。

该模型的能力远不止于简单场景生成。它能够理解复杂的空间关系和构图语义,例如根据“山丘上的中世纪城堡,东侧有一片森林”这类描述,构建出结构合理、物件布局符合逻辑的立体世界。更重要的是,生成的结果并非封闭的“黑箱”渲染,而是可供设计师直接导入专业工具进行二次编辑、调整材质、添加动画或集成到大型项目中的生产级资产。这彻底改变了传统3D内容创作耗时数周甚至数月的流程,将初期原型设计缩短至数小时。

腾讯此举的战略意图十分明显:依托其庞大的游戏帝国(如《王者荣耀》《PUBG Mobile》),HY-World 2.0不仅能从海量游戏数据中汲取训练养分,更能直接反哺游戏开发,用于快速生成大逃杀地图、RPG地下城或开放世界地形。同时,开源策略将加速生态构建,吸引开发者和研究者共同推进技术,并可能使其成为连接各类3D创作引擎的通用内容生成前端。在通往元宇宙的道路上,可规模化生成且可交互的3D环境是核心基石,HY-World 2.0正试图成为这块基石的铸造者。

技术深度解析

HY-World 2.0的架构代表了多条前沿AI研究路径的复杂融合。其核心是一个基于扩散模型的多模态Transformer,该模型在腾讯海量专有数据集上训练而成,该数据集包含成对的文本描述、2D图像/视频及其对应的3D重建数据。与1.5版本相比,关键的技术飞跃在于将神经辐射场(NeRF)与3D高斯泼溅(3DGS)解码器直接集成到了生成流程中。

以下是推测的工作流程:文本提示首先由一个大语言模型(很可能基于腾讯的混元大模型)处理,以提取空间和构图语义(例如,“山丘上的中世纪城堡,东侧有一片森林”)。这种结构化表征随后被输入到一个3D潜在扩散模型中。该模型并非在2D图像帧上去噪,而是在3D潜在空间中进行去噪。此过程的输出是一个稠密的3D特征体。随后,该特征体通过两条并行路径解码:
1. 网格解码器:采用受Deep Marching Tetrahedra或类似方法启发的技术,提取出密封的、带纹理的多边形网格——这是游戏引擎的标准资产格式。
2. 3DGS解码器:生成一组带有颜色和不透明度的各向异性3D高斯分布,能够实现极速、高质量的渲染,适用于实时应用和进一步编辑。

模型的“多模态理解”能力表明,它采用了视觉Transformer(ViT)编码器,能够根据输入的图像或视频关键帧来调节生成过程,从而实现风格迁移或基于参考媒体的场景重建。

该领域一个值得关注的关键GitHub仓库是`threestudio`,这是一个利用2D扩散先验进行3D内容生成的统一框架。虽然并非腾讯自研,但它所整合的技术——分数蒸馏采样(SDS)、变分分数蒸馏(VSD)和3DGS优化——正是HY-World 2.0实现大规模应用所必须的基础。腾讯的创新之处在于,将这些多阶段、优化密集型的过程“烘焙”成了一个单一的、端到端的前向传播过程。

| 模型特性 | HY-World 2.0 | Google Genie (3D) | OpenAI Sora (3D推断) | Luma AI Dream Machine |
|----------------------|---------------------------|-----------------------------|-----------------------------|---------------------------|
| 主要输出 | 可编辑3D网格/3DGS | 3D视频(隐含几何) | 2D视频(3D一致性) | 3D视频 / NeRF |
| 资产导出 | 支持(GLTF, OBJ等) | 不支持 | 不支持 | 有限(NeRF格式) |
| 引擎兼容性 | 直接(Unity/Unreal) | 间接 | 无 | 需通过插件间接支持 |
| 生成速度(估计) | 数分钟每场景 | 数秒每视频 | 数分钟每视频 | 数分钟每NeRF |
| 关键差异化 | 生产就绪的资产 | 基于视频的世界模拟 | 逼真视频生成 | 易用性、可访问性 |

数据要点:上表揭示了HY-World 2.0的独特定位:它是唯一一个优先为专业生产管线创建直接可编辑资产,而非纯粹视觉媒体生成的模型。这是一个为效用而非炫技的深思熟虑的设计选择。

关键参与者与案例研究

生成式3D领域正迅速围绕几个战略阵营聚合。腾讯凭借HY-World 2.0,正利用其庞大的游戏帝国(如《王者荣耀》《PUBG Mobile》)同时作为训练数据源和主要应用场景。该模型可以快速原型化大逃杀地图、RPG地下城或开放世界地形,将关卡设计时间从数周缩短至数小时。像David Ha(前谷歌研究员,以世界模型研究闻名)这样的研究者已经从概念上铺平了道路,但腾讯的应用研究团队已经实现了生产规模的落地。

谷歌的Genie及其3D愿景代表了纯粹的研究前沿,专注于从图像或文本生成交互式环境。然而,其输出仍然是视频模拟,而非可塑资产。英伟达正从基础设施和工具层面着手解决这个问题,通过OmniversePicasso等生成式AI服务,旨在成为所有3D协作和AI生成的底层平台。他们的优势在于物理模拟和渲染层,而不一定是基础的世界模型本身。

诸如Luma AI、Tripo AI、Masterpiece Studio等初创公司则专注于特定细分领域——物体生成、从图像生成3D——但缺乏规模和整体的“世界”视野。Unity和Unreal Engine(Epic Games)是受直接影响最大的现有平台。它们都在集成AI工具(Unity Muse、Unreal内部的AI项目),但HY-World 2.0的开源特性可能使其成为一个受欢迎的、与引擎无关的内容生成前端,为这些引擎输送资产,甚至可能绕过它们自身的AI路线图。

| 公司/项目 | 核心路径 | 战略目标 | 相较于HY-World 2.0的劣势 |
|--------------------------|----------------------------------|------------------------------------------|--------------------------------------------|
| 腾讯 (HY-World 2.0) | 端到端世界模型生成可编辑资产 | 主导游戏/元宇宙内容生产管线 | 对非游戏行业应用场景的优化可能不足 |
| 谷歌 (Genie) | 从图像/文本生成交互式环境视频 | 探索通用AI智能体与环境交互的基础研究 | 输出非结构化,难以直接用于生产 |
| 英伟达 (Omniverse) | 提供3D协作平台与AI生成云服务 | 成为3D工业元宇宙的底层操作系统与计算平台 | 依赖生态,自身不直接提供核心世界生成模型 |
| Luma AI 等初创公司 | 聚焦单对象生成或图像转3D等垂直场景 | 在细分市场快速商业化,提供易用工具 | 缺乏构建复杂、一致大场景的“世界模型”能力 |
| Unity / Unreal Engine| 在现有引擎内集成AI辅助创作工具 | 巩固平台地位,提升创作者效率 | 可能被开源、跨引擎的生成前端部分替代 |

相关专题

generative AI46 篇相关文章open source AI117 篇相关文章

时间归档

April 20261442 篇已发布文章

延伸阅读

阿里“快乐牡蛎”世界模型挑战谷歌Genie3,实时AI模拟进入巨头竞逐时代阿里巴巴正式进军AI驱动的世界模拟前沿赛道,推出实时交互环境构建器“快乐牡蛎”。该产品基于原生多模态架构打造,旨在创建持久可探索的数字领域,直接对标谷歌未公开的Genie3。这标志着阿里正从对话式AI向体验式模拟进行战略转向,对内容创作生态小冰之死:微软的AI先驱如何被生成浪潮反超曾拥有6.6亿用户的革命性对话AI微软小冰,已悄然进入‘休眠’状态。它的兴衰史堪称AI创新残酷经济学的经典教案:先行者未必能笑到最后。本文深度剖析,这款定义人机交互十年的产品,如何被它亲手助推的浪潮所淹没。3D打印如何揭示AI世界模型的隐藏扩展定律构建理解物理世界AI的竞赛,在一个意想不到的领域找到了试验场:3D打印。AINews获悉,五年硬件构建经验催生了世界模型的新扩展定律,挑战了科技巨头以数据为中心的主流路径。这条硬件优先的道路,可能重新定义我们构建真正智能系统的方式。从华沙机器人到隐私应用:中国科技转向全球解决方案中国产人形机器人在华沙公园从容驱散野猪,美的以低于1400美元的系统重新定义高端家庭气候控制,一款新的超级应用承诺绝对隐私。这些看似无关的事件串联起一个清晰的叙事:中国科技正从能力展示阶段,转向解决全球规模实际问题的阶段。

常见问题

这次模型发布“Tencent's Open-Source World Model 2.0 Transforms Text into Editable 3D Worlds”的核心内容是什么?

Tencent's release and open-sourcing of the HY-World 2.0 (HY-World 2.0) model marks a definitive shift in the trajectory of generative artificial intelligence. Unlike previous model…

从“How does HY-World 2.0 compare to Luma AI for 3D generation?”看,这个模型发布为什么重要?

HY-World 2.0's architecture represents a sophisticated fusion of several cutting-edge AI research threads. At its core, it is a diffusion-based multimodal transformer that has been trained on a massive, proprietary datas…

围绕“Can HY-World 2.0 be used with Blender for free?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。