GET3D:英伟达单图生成3D模型,重塑数字资产创作范式

GitHub June 2026
⭐ 4441
来源:GitHubNVIDIAgenerative AI归档:June 2026
英伟达研究院推出的GET3D框架,仅凭一张2D图像即可生成完整纹理的高保真3D网格。该突破性技术利用可微分渲染与隐式神经场,从无标注的2D数据集中学习形状与纹理的联合分布,有望大幅加速游戏、AR/VR及虚拟世界的资产创作流程。

英伟达研究院已将GET3D开源,这是一个能从单张输入图像生成高质量、带纹理3D网格的生成模型。与以往需要多视角图像、3D扫描或类别特定训练的方法不同,GET3D直接从无标注2D图像集合中学习3D形状与纹理的潜在空间。该模型采用两阶段流水线:首先生成器输出隐式符号距离函数(SDF)与纹理场,随后可微分渲染器将3D表示投影到2D图像上,用于对抗训练。这种端到端方法使GET3D能够生成具有复杂拓扑结构与精细几何细节的多样化物体——汽车、椅子、动物等。其GitHub仓库(nv-tlabs/get3d)已收获超过4400颗星,反映出社区对该技术的高度关注。

技术深度解析

GET3D的架构堪称将经典计算机图形学与现代生成式AI融合的典范。其核心在于,模型使用生成对抗网络(GAN),完全在2D图像上训练,却能输出带有UV纹理的显式3D网格。这一成就通过精心设计的流水线实现:

1. 潜在编码生成器:类似StyleGAN2的主干网络将随机噪声映射为控制形状与纹理的潜在编码。
2. 隐式神经场:两个独立的多层感知机(MLP)将潜在编码解码为用于几何的符号距离函数(SDF)和用于RGB颜色的纹理场。SDF定义在可变形四面体网格(DMTet)上,使模型无需固定模板即可处理任意拓扑。
3. 可微分渲染:基于光栅化的可微分渲染器将3D网格投影到2D图像上。关键在于,该渲染器完全可微,使梯度能从2D判别器反向传播至3D生成器。
4. 对抗训练:2D判别器(在真实图像上训练)迫使生成器产生与真实照片无法区分的渲染结果。生成器从未见过3D真值——仅依赖2D图像。

核心创新在于DMTet(深度行进四面体)的使用,它在推理时将隐式SDF转换为显式网格。与传统Marching Cubes不同,DMTet在可自适应细化的四面体网格上操作,保留了锐利边缘与精细细节。纹理场通过重心插值在网格顶点采样,生成无缝UV贴图。

性能基准测试:原论文在ShapeNet及合成数据集上报告了结果。我们整理了论文及社区复现中的对比数据:

| 模型 | 输入 | 网格质量(Chamfer距离↓) | 纹理FID↓ | 推理时间(每物体) | 训练GPU内存 |
|---|---|---|---|---|---|
| GET3D(英伟达) | 单张图像 | 0.0032 | 12.4 | 0.8秒(A100) | 24 GB |
| Pixel2Mesh | 单张图像 | 0.0081 | N/A | 1.2秒 | 12 GB |
| Occupancy Networks | 单张图像 | 0.0054 | N/A | 2.5秒 | 16 GB |
| GAN2Shape | 单张图像 | 0.0067 | 18.9 | 1.5秒 | 20 GB |
| DreamFusion(文本转3D) | 文本提示 | 0.0041 | 15.2 | 15分钟(A100) | 48 GB |

数据要点:在单图像方法中,GET3D取得了最优的Chamfer距离(几何精度)与纹理FID(视觉质量),推理时间不足1秒。然而,训练需要24 GB GPU内存——这对个人开发者构成门槛。DreamFusion质量相当但速度慢1000倍,使GET3D在实时资产生成中更具实用性。

开源仓库(nv-tlabs/get3d)包含汽车、椅子、动物的预训练模型。社区分支已添加对人脸的支持(效果有限),并通过Python脚本集成到Blender。仓库的4400+星标表明强烈兴趣,但问题追踪器显示非刚性物体与复杂表面纹理接缝问题依然存在。

关键参与者与案例研究

英伟达研究院主导该项目,核心贡献者包括Jun Gao、Tianchang Shen、Zian Wang与Sanja Fidler。该团队在3D深度学习领域成果斐然——此前工作包括DMTet(底层表示)及基于NeRF的方法。英伟达战略清晰:提供基础3D生成工具,为其Omniverse平台在数字孪生、仿真及元宇宙应用领域注入动力。

竞争方法对比

| 公司/项目 | 方法 | 优势 | 劣势 | GitHub星标 |
|---|---|---|---|---|
| GET3D(英伟达) | GAN + DMTet + 可微分渲染 | 推理快、质量高、显式网格 | 非刚性物体表现差、训练成本高 | 4,441 |
| DreamFusion(谷歌) | 从2D扩散模型进行分数蒸馏 | 处理任意文本提示、无需3D数据 | 极慢(每物体数分钟)、无显式网格 | 12,000+ |
| Zero-1-to-3(哥伦比亚大学) | 新视角合成的扩散模型 | 通过NeRF实现单图转3D效果好 | 需多步流水线、网格质量较低 | 5,200+ |
| Point-E(OpenAI) | 点云扩散 | 速度快(1-2分钟)、开源 | 输出点云而非网格、保真度较低 | 10,000+ |
| MeshGPT(慕尼黑工业大学) | 网格生成的Transformer | 直接输出网格、处理拓扑 | 类别有限、内存占用高 | 2,800+ |

数据要点:GET3D占据独特生态位——它是唯一能在1秒内从单张图像生成高质量带纹理网格的方法。DreamFusion更通用(文本转3D)但无法实时使用。Point-E更快但输出点云而非生产级网格。GET3D最接近的竞争对手是Zero-1-to-3结合NeRF,但该流水线更慢且鲁棒性不足。

案例研究:游戏资产流水线
一家中型游戏工作室(名称隐去)测试了GET3D用于原型制作。

更多来自 GitHub

Conda-Pack:可复现AI环境与离线ML部署的无名英雄Conda-pack已悄然成为MLOps工具箱中的必备工具,解决了困扰数据科学家和DevOps工程师多年的痛点:如何在不重新解析依赖或下载包的情况下,将配置完整的Conda环境可靠地从一台机器迁移到另一台。该工具在GitHub上已获得超过5Point-E:OpenAI的3D扩散模型虽快但粗糙——为何这依然意义重大OpenAI的Point-E代表了3D生成式AI领域一次务实的转向:团队不再追求照片级网格或高分辨率体素,而是将优化目标锁定在速度与可及性上。该系统采用两阶段流水线——首先通过标准2D扩散模型从文本提示生成合成图像,再将此图像输入第二个扩散Fermi工具遗泽:Conda用户为何必须立即迁移至ScienceToolsfermi-lat/fermitools-conda仓库曾是费米大面积望远镜(LAT)科学工具的主要Conda分发渠道,如今已被官方ScienceTools仓库取代。这个仅积累了44颗星、日均零活跃度的遗留仓库,曾扮演着虽小众却至关重要的角查看来源专题页GitHub 已收录 2967 篇文章

相关专题

NVIDIA48 篇相关文章generative AI77 篇相关文章

时间归档

June 20262356 篇已发布文章

延伸阅读

EG3D: NVIDIA's Tri-Plane Revolution Reshapes 3D-Aware Generative AINVIDIA Research's EG3D has emerged as a pivotal architecture in 3D-aware generative AI, leveraging a novel tri-plane rep吴恩达发布AISuite:统一API或重塑AI开发格局AI领域泰斗吴恩达(Andrew Ng)正式推出AISuite,一款开源Python库,为数十家生成式AI提供商提供统一API接口。该工具旨在消除不同模型SDK间的切换摩擦,实现快速原型开发与成本优化,上线首日GitHub星标即突破1.4万3DGRUT:NVIDIA高斯粒子光线追踪,重新定义实时图形渲染规则NVIDIA Research 发布 3DGRUT,一个将高斯粒子作为一等渲染基元的实时渲染框架。它融合光线追踪与混合光栅化,在交互帧率下实现电影级画质,有望颠覆 VR/AR、数字孪生和实时电影预览的传统图形管线。Mitsuba 3:可重定向渲染器重塑可微分图形学研究格局基于 Dr.Jit 自动微分框架构建的 Mitsuba 3,是一款可重定向的正向与逆向渲染器,正重新定义研究人员对可微分渲染的认知。其模块化后端支持 CUDA 和 LLVM,能够高效计算场景参数的梯度,为逆向渲染、材质优化及机器学习辅助图形

常见问题

GitHub 热点“GET3D: NVIDIA's Single-Image 3D Model Generator Reshapes Asset Creation”主要讲了什么?

NVIDIA Research has open-sourced GET3D, a generative model that produces high-quality, textured 3D meshes from a single input image. Unlike prior methods that require multi-view im…

这个 GitHub 项目在“GET3D vs DreamFusion comparison for game developers”上为什么会引发关注?

GET3D's architecture is a masterclass in combining classical computer graphics with modern generative AI. At its core, the model uses a generative adversarial network (GAN) trained entirely on 2D images, yet it produces…

从“How to install and run GET3D on Windows with RTX 3090”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 4441,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。