技术深度解析
LiveHere的核心创新不在于训练新模型,而在于对NVIDIA Cosmos世界模型的战略性部署与编排。Cosmos是一系列基于扩散的世界模型,旨在从图像、文本甚至部分3D场景表示等多种输入中生成物理上合理的视频序列。与标准文本到视频模型(如OpenAI的Sora或Runway Gen-3)不同——后者在海量互联网数据上训练,常出现物体交互的幻觉——Cosmos明确针对空间一致性和时间连贯性进行了优化。这使其特别适合房地产领域,因为观众会立刻注意到椅子在帧间移动或墙面光线不自然地变化。
架构与推理管线:
Cosmos的核心采用视频扩散Transformer(ViDiT)架构。该模型以静态图像作为条件帧,自回归地生成后续帧序列。LiveHere解决的关键工程挑战是在单个节点上实现实时推理。通过将模型自托管在Nebius H200 NVLink GPU上,团队充分利用了H200的141GB HBM3e内存和4.8 TB/s内存带宽。这一点至关重要,因为Cosmos在完整的7B参数配置下,仅模型权重就需要约28GB VRAM,加上长序列生成过程中的KV缓存和中间激活值,内存需求巨大。NVLink互连技术使得单个节点内的八块H200 GPU能够共享内存并以极低开销同步梯度,从而在不到10秒的挂钟时间内生成一段30秒、24fps的视频。
采用的关键优化:
- 延迟感知的帧调度: LiveHere并非顺序生成所有帧,而是采用交错生成方法:首先生成低分辨率预览帧,然后通过并行超分辨率模块进行放大。这为用户提供了近乎即时的视觉反馈循环。
- 相机轨迹注入: Cosmos原生不支持显式相机控制。LiveHere工程师注入了一个轻量级相机姿态估计模块(基于COLMAP风格的特征匹配),从输入照片中提取相机内参和外参。这些姿态信息随后用于条件化扩散过程,确保生成的视频在空间中沿着平滑、自然的路径移动。
- 隐私优先的数据处理: 所有图像数据完全在自托管的GPU上处理,不发送至任何外部API端点。团队配置了Nebius的安全飞地环境,确保即使是云基础设施运营商也无法访问原始图像或生成的视频。
相关开源生态系统:
尽管Cosmos本身并非完全开源(NVIDIA已根据研究许可发布模型权重),但更广泛的社区已构建了补充工具。Hugging Face的`diffusers`库(目前在GitHub上拥有25k+星标)为加载和运行扩散模型提供了基础。LiveHere很可能使用了针对Cosmos特定注意力机制优化的`diffusers`自定义分支。此外,`xformers`库(10k+星标)用于实现内存高效的注意力机制,在推理期间将VRAM消耗降低约30%。
数据对比:
| 指标 | LiveHere(自托管Cosmos) | 典型云端API(如Runway Gen-3) |
|---|---|---|
| 延迟(30秒视频) | 8-12秒 | 45-120秒 |
| 每1000个视频成本 | 12美元(仅GPU计算) | 50-150美元(API费用) |
| 数据隐私 | 完全(本地GPU) | 取决于API提供商 |
| 可定制性 | 高(相机控制、风格) | 低(限于API参数) |
数据结论: 自托管实现了4-10倍的延迟提升和4-12倍的成本降低,同时提供了绝对的数据控制权。这使得针对特定垂直领域的部署在高容量用例(如房产列表)中具有经济可行性。
关键参与者与案例研究
NVIDIA的Cosmos团队: 由高级研究科学家Ming-Yu Liu领导,Cosmos项目是NVIDIA在机器人和模拟领域推动世界模型应用的更广泛战略的一部分。该模型于2025年初发布时,受到了生成视频社区的欢迎,但由于其计算需求,最初仅局限于研究实验室使用。LiveHere在黑客马拉松中的获胜是一个强烈信号,表明该模型现已具备商业部署的实用性。
Nebius(前身为Yandex Cloud): Nebius积极将自己定位为高要求AI工作负载的基础设施提供商。其H200 NVLink集群,预留实例价格约为每GPU小时3.50美元,为AWS的p5实例(H100每GPU小时5.50美元)提供了高性价比的替代方案。Nebius的关键差异化优势在于其“AI工厂”概念:预配置的Kubernetes集群,搭载NVIDIA的NeMo框架,允许用户快速部署和扩展大规模推理任务。