腾讯开源世界模型2.0：一句话生成可编辑3D世界

腾讯发布并开源HY-World 2.0模型，标志着生成式人工智能发展轨迹的一次决定性转折。与以往生成视频或静态3D对象的模型不同，HY-World 2.0是一个真正的“世界模型”——它作为多模态系统，能够消化文本、图像或视频输入，并输出一个包含物体、地形与光照、具有空间一致性的完整3D环境。其关键创新在于输出格式：模型直接生成网格、3D高斯泼溅（3DGS）和点云等行业标准3D资产，这些资产与Unity、Unreal Engine等主流游戏引擎完全兼容。此举成功弥合了AI想象力与实际生产管线之间的鸿沟。

该模型的能力远不止于简单场景生成。它能够理解复杂的空间关系和构图语义，例如根据“山丘上的中世纪城堡，东侧有一片森林”这类描述，构建出结构合理、物件布局符合逻辑的立体世界。更重要的是，生成的结果并非封闭的“黑箱”渲染，而是可供设计师直接导入专业工具进行二次编辑、调整材质、添加动画或集成到大型项目中的生产级资产。这彻底改变了传统3D内容创作耗时数周甚至数月的流程，将初期原型设计缩短至数小时。

腾讯此举的战略意图十分明显：依托其庞大的游戏帝国（如《王者荣耀》《PUBG Mobile》），HY-World 2.0不仅能从海量游戏数据中汲取训练养分，更能直接反哺游戏开发，用于快速生成大逃杀地图、RPG地下城或开放世界地形。同时，开源策略将加速生态构建，吸引开发者和研究者共同推进技术，并可能使其成为连接各类3D创作引擎的通用内容生成前端。在通往元宇宙的道路上，可规模化生成且可交互的3D环境是核心基石，HY-World 2.0正试图成为这块基石的铸造者。

技术深度解析

HY-World 2.0的架构代表了多条前沿AI研究路径的复杂融合。其核心是一个基于扩散模型的多模态Transformer，该模型在腾讯海量专有数据集上训练而成，该数据集包含成对的文本描述、2D图像/视频及其对应的3D重建数据。与1.5版本相比，关键的技术飞跃在于将神经辐射场（NeRF）与3D高斯泼溅（3DGS）解码器直接集成到了生成流程中。

以下是推测的工作流程：文本提示首先由一个大语言模型（很可能基于腾讯的混元大模型）处理，以提取空间和构图语义（例如，“山丘上的中世纪城堡，东侧有一片森林”）。这种结构化表征随后被输入到一个3D潜在扩散模型中。该模型并非在2D图像帧上去噪，而是在3D潜在空间中进行去噪。此过程的输出是一个稠密的3D特征体。随后，该特征体通过两条并行路径解码：
1. 网格解码器：采用受Deep Marching Tetrahedra或类似方法启发的技术，提取出密封的、带纹理的多边形网格——这是游戏引擎的标准资产格式。
2. 3DGS解码器：生成一组带有颜色和不透明度的各向异性3D高斯分布，能够实现极速、高质量的渲染，适用于实时应用和进一步编辑。

模型的“多模态理解”能力表明，它采用了视觉Transformer（ViT）编码器，能够根据输入的图像或视频关键帧来调节生成过程，从而实现风格迁移或基于参考媒体的场景重建。

该领域一个值得关注的关键GitHub仓库是`threestudio`，这是一个利用2D扩散先验进行3D内容生成的统一框架。虽然并非腾讯自研，但它所整合的技术——分数蒸馏采样（SDS）、变分分数蒸馏（VSD）和3DGS优化——正是HY-World 2.0实现大规模应用所必须的基础。腾讯的创新之处在于，将这些多阶段、优化密集型的过程“烘焙”成了一个单一的、端到端的前向传播过程。

| 模型特性 | HY-World 2.0 | Google Genie (3D) | OpenAI Sora (3D推断) | Luma AI Dream Machine |
|----------------------|---------------------------|-----------------------------|-----------------------------|---------------------------|
| 主要输出 | 可编辑3D网格/3DGS | 3D视频（隐含几何） | 2D视频（3D一致性） | 3D视频 / NeRF |
| 资产导出 | 支持（GLTF, OBJ等） | 不支持 | 不支持 | 有限（NeRF格式） |
| 引擎兼容性 | 直接（Unity/Unreal） | 间接 | 无 | 需通过插件间接支持 |
| 生成速度（估计） | 数分钟每场景 | 数秒每视频 | 数分钟每视频 | 数分钟每NeRF |
| 关键差异化 | 生产就绪的资产 | 基于视频的世界模拟 | 逼真视频生成 | 易用性、可访问性 |

数据要点：上表揭示了HY-World 2.0的独特定位：它是唯一一个优先为专业生产管线创建直接可编辑资产，而非纯粹视觉媒体生成的模型。这是一个为效用而非炫技的深思熟虑的设计选择。

关键参与者与案例研究

生成式3D领域正迅速围绕几个战略阵营聚合。腾讯凭借HY-World 2.0，正利用其庞大的游戏帝国（如《王者荣耀》《PUBG Mobile》）同时作为训练数据源和主要应用场景。该模型可以快速原型化大逃杀地图、RPG地下城或开放世界地形，将关卡设计时间从数周缩短至数小时。像David Ha（前谷歌研究员，以世界模型研究闻名）这样的研究者已经从概念上铺平了道路，但腾讯的应用研究团队已经实现了生产规模的落地。

谷歌的Genie及其3D愿景代表了纯粹的研究前沿，专注于从图像或文本生成交互式环境。然而，其输出仍然是视频模拟，而非可塑资产。英伟达正从基础设施和工具层面着手解决这个问题，通过Omniverse和Picasso等生成式AI服务，旨在成为所有3D协作和AI生成的底层平台。他们的优势在于物理模拟和渲染层，而不一定是基础的世界模型本身。

诸如Luma AI、Tripo AI、Masterpiece Studio等初创公司则专注于特定细分领域——物体生成、从图像生成3D——但缺乏规模和整体的“世界”视野。Unity和Unreal Engine（Epic Games）是受直接影响最大的现有平台。它们都在集成AI工具（Unity Muse、Unreal内部的AI项目），但HY-World 2.0的开源特性可能使其成为一个受欢迎的、与引擎无关的内容生成前端，为这些引擎输送资产，甚至可能绕过它们自身的AI路线图。

| 公司/项目 | 核心路径 | 战略目标 | 相较于HY-World 2.0的劣势 |
|--------------------------|----------------------------------|------------------------------------------|--------------------------------------------|
| 腾讯 (HY-World 2.0) | 端到端世界模型生成可编辑资产 | 主导游戏/元宇宙内容生产管线 | 对非游戏行业应用场景的优化可能不足 |
| 谷歌 (Genie) | 从图像/文本生成交互式环境视频 | 探索通用AI智能体与环境交互的基础研究 | 输出非结构化，难以直接用于生产 |
| 英伟达 (Omniverse) | 提供3D协作平台与AI生成云服务 | 成为3D工业元宇宙的底层操作系统与计算平台 | 依赖生态，自身不直接提供核心世界生成模型 |
| Luma AI 等初创公司 | 聚焦单对象生成或图像转3D等垂直场景 | 在细分市场快速商业化，提供易用工具 | 缺乏构建复杂、一致大场景的“世界模型”能力 |
| Unity / Unreal Engine| 在现有引擎内集成AI辅助创作工具 | 巩固平台地位，提升创作者效率 | 可能被开源、跨引擎的生成前端部分替代 |

时间归档

延伸阅读

常见问题

这次模型发布“Tencent's Open-Source World Model 2.0 Transforms Text into Editable 3D Worlds”的核心内容是什么？

Tencent's release and open-sourcing of the HY-World 2.0 (HY-World 2.0) model marks a definitive shift in the trajectory of generative artificial intelligence. Unlike previous model…

从“How does HY-World 2.0 compare to Luma AI for 3D generation?”看，这个模型发布为什么重要？

HY-World 2.0's architecture represents a sophisticated fusion of several cutting-edge AI research threads. At its core, it is a diffusion-based multimodal transformer that has been trained on a massive, proprietary datas…

围绕“Can HY-World 2.0 be used with Blender for free?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。