技术深度解析
3DGRUT 的架构可拆解为三个核心组件:高斯粒子表征、混合光栅化/光线追踪调度器,以及基于 Tile 的光线遍历引擎。
高斯粒子表征: 每个粒子由 3D 位置、3x3 协方差矩阵(控制其椭球形状和朝向)、不透明度值以及一组用于视角相关颜色的球谐系数定义。与使用固定粒子数量的 3D Gaussian Splatting(3DGS)不同,3DGRUT 支持动态插入和移除,从而能够处理动画场景。协方差矩阵通过四元数和缩放向量进行参数化,确保优化过程中的半正定性。
混合光栅化/光线追踪调度器: 该框架将每个像素分类为三种模式之一:
- *直接光栅化:* 对于漫反射表面和低频光照,粒子通过快速 CUDA 内核溅射到图像平面上。在典型场景中,这约占 70% 的像素。
- *单次反弹光线追踪:* 对于光泽反射和柔和阴影,每个像素追踪一条光线,与高斯粒子场求交。相交测试使用光线-椭球相交的闭式解,仅需 12 次浮点运算。
- *多次反弹路径追踪:* 对于焦散、相互反射和次表面散射,会调用完整的路径追踪器,但仅针对稀疏的像素集(通常 <5%)。结果通过轻量级神经网络进行降噪。
基于 Tile 的光线遍历: 性能的关键在于基于高斯粒子构建的空间层次结构。场景被划分为 16x16x16 的均匀网格 Tile。每个 Tile 存储一个重叠粒子的列表,并按轴对齐包围盒(AABB)相交情况排序。在光线追踪过程中,光线通过 3D DDA 算法在 Tile 中步进,仅测试已访问 Tile 中的粒子。这将每条光线的相交测试次数从 O(N) 减少到 O(log N),其中 N 是粒子数量。对于一个包含 1000 万个粒子的场景,与暴力方法相比,光线相交开销降低了 60%。
基准性能:
| 场景 | 粒子数(百万) | 3DGS(FPS) | 3DGRUT(FPS) | 加速比 | 视觉质量(PSNR) |
|---|---|---|---|---|---|
| Bicycle | 8.2 | 42 | 89 | 2.1x | 31.2 dB |
| Garden | 12.5 | 28 | 67 | 2.4x | 33.8 dB |
| Train | 15.0 | 19 | 52 | 2.7x | 29.5 dB |
| Mip-NeRF 360(平均) | 10.0 | 35 | 78 | 2.2x | 30.1 dB |
*数据要点:* 3DGRUT 在保持可比视觉质量(PSNR 相差 1-2 dB 以内)的同时,帧率始终是纯 3DGS 光栅化的两到三倍。在粒子数量众多的复杂场景中,加速效果最为显著,此时基于 Tile 的遍历优势得以充分发挥。
相关 GitHub 仓库:
- nv-tlabs/3dgrut(⭐2,249):官方实现,包含将 NeRF 或多视角视频转换为高斯粒子的训练脚本,以及基于 Vulkan 后端的实时查看器。
- graphdeco-inria/gaussian-splatting(⭐15k+):原始 3DGS 仓库;3DGRUT 直接构建在此表征之上。
- NVlabs/instant-ngp(⭐12k+):NVIDIA 的即时神经图形基元;3DGRUT 的 Tile 遍历借鉴了其多分辨率哈希网格的思想。
关键参与者与案例研究
NVIDIA Research(多伦多 AI 实验室): 该实验室由 Dr. Sanja Fidler 领导,在连接神经网络与图形学方面有着悠久历史。此前的工作包括基于 NeRF 的场景编辑和用于自动驾驶的可微渲染。3DGRUT 是他们 2024 年关于“高斯光线追踪”论文的直接演进。
竞争方法:
| 方法 | 基元 | 渲染方式 | 动态场景 | 开源 |
|---|---|---|---|---|
| 3DGRUT | 高斯粒子 | 混合 RT/光栅化 | 是 | 是 |
| 3D Gaussian Splatting | 高斯粒子 | 仅光栅化 | 有限 | 是 |
| Neural Radiance Fields(NeRF) | 隐式 MLP | 光线步进 | 否 | 是 |
| Unreal Engine 5 Nanite | 三角形 | 虚拟几何体 | 是 | 否 |
| Luma AI(Unreal 插件) | 高斯粒子 | 仅光栅化 | 有限 | 否 |
*数据要点:* 3DGRUT 的独特之处在于同时支持动态场景和高斯基元上的硬件加速光线追踪。Unreal Engine 5 的 Nanite 在静态三角形网格方面表现出色,但无法处理体积效果或视角相关外观,除非进行大量预计算。
案例研究:VR/AR 头显原型开发
一家主要的 VR 头显制造商(名称保密)使用 3DGRUT 在 NVIDIA RTX 4090 上以 90 FPS 渲染了一个工厂车队的照片级数字孪生。此前,要达到类似质量需要以 1 FPS 进行离线渲染。混合方法允许对金属表面的镜面反射进行光线追踪,同时对漫反射墙面进行光栅化,将延迟从 45 毫秒降低到 11 毫秒。
行业影响与市场动态
市场背景: 全球实时渲染市场预计将持续增长,而 3DGRUT 的出现可能加速这一趋势。它填补了现有技术在高保真动态场景实时渲染方面的空白,尤其适用于对延迟和沉浸感要求极高的 VR/AR 应用。随着数字孪生和虚拟制片需求的增加,3DGRUT 提供了一种可落地的技术方案,有望推动相关行业从离线渲染向实时交互的转变。