LiveHere自托管NVIDIA Cosmos:把房产照片变成30秒成交利器

Hacker News June 2026
来源:Hacker NewsAI video generation归档:June 2026
一个诞生于近期黑客马拉松的项目LiveHere,展示了NVIDIA Cosmos世界模型的突破性应用:将静态房产照片转化为动态、沉浸式的视频预览。通过将模型自托管在Nebius H200 NVLink GPU上,团队绕过了API瓶颈,实现了低延迟、保护隐私的实时视频生成,精准瞄准决定房源命运的30秒黄金窗口。

在竞争白热化的租房市场,一套房源的命运往往在最初30秒内就已注定。无论静态照片拍得多精美,都无法与模拟穿行于阳光客厅或漫步绿树成荫街道的视频所带来的感官冲击相抗衡。LiveHere,一个在近期黑客马拉松中诞生的项目,通过利用NVIDIA的Cosmos世界模型,构建了一个直击这一痛点的解决方案。团队没有依赖延迟不可预测且存在数据隐私隐患的云端API,而是选择将模型自托管在Nebius H200 NVLink GPU上。这一架构决策使得从几张上传的照片中实时生成连贯、符合物理规律的视频导览成为可能。其输出并非简单的带过渡效果的幻灯片,而是一个合成的、具有空间意识的动态场景,让潜在租户在点击房源后几秒内就能“走进”房间。这不仅提升了用户体验,更从根本上改变了房产营销的效率与成本结构,为高流量、高转化需求的垂直行业提供了可复用的技术范式。

技术深度解析

LiveHere的核心创新不在于训练新模型,而在于对NVIDIA Cosmos世界模型的战略性部署与编排。Cosmos是一系列基于扩散的世界模型,旨在从图像、文本甚至部分3D场景表示等多种输入中生成物理上合理的视频序列。与标准文本到视频模型(如OpenAI的Sora或Runway Gen-3)不同——后者在海量互联网数据上训练,常出现物体交互的幻觉——Cosmos明确针对空间一致性和时间连贯性进行了优化。这使其特别适合房地产领域,因为观众会立刻注意到椅子在帧间移动或墙面光线不自然地变化。

架构与推理管线:

Cosmos的核心采用视频扩散Transformer(ViDiT)架构。该模型以静态图像作为条件帧,自回归地生成后续帧序列。LiveHere解决的关键工程挑战是在单个节点上实现实时推理。通过将模型自托管在Nebius H200 NVLink GPU上,团队充分利用了H200的141GB HBM3e内存和4.8 TB/s内存带宽。这一点至关重要,因为Cosmos在完整的7B参数配置下,仅模型权重就需要约28GB VRAM,加上长序列生成过程中的KV缓存和中间激活值,内存需求巨大。NVLink互连技术使得单个节点内的八块H200 GPU能够共享内存并以极低开销同步梯度,从而在不到10秒的挂钟时间内生成一段30秒、24fps的视频。

采用的关键优化:

- 延迟感知的帧调度: LiveHere并非顺序生成所有帧,而是采用交错生成方法:首先生成低分辨率预览帧,然后通过并行超分辨率模块进行放大。这为用户提供了近乎即时的视觉反馈循环。
- 相机轨迹注入: Cosmos原生不支持显式相机控制。LiveHere工程师注入了一个轻量级相机姿态估计模块(基于COLMAP风格的特征匹配),从输入照片中提取相机内参和外参。这些姿态信息随后用于条件化扩散过程,确保生成的视频在空间中沿着平滑、自然的路径移动。
- 隐私优先的数据处理: 所有图像数据完全在自托管的GPU上处理,不发送至任何外部API端点。团队配置了Nebius的安全飞地环境,确保即使是云基础设施运营商也无法访问原始图像或生成的视频。

相关开源生态系统:

尽管Cosmos本身并非完全开源(NVIDIA已根据研究许可发布模型权重),但更广泛的社区已构建了补充工具。Hugging Face的`diffusers`库(目前在GitHub上拥有25k+星标)为加载和运行扩散模型提供了基础。LiveHere很可能使用了针对Cosmos特定注意力机制优化的`diffusers`自定义分支。此外,`xformers`库(10k+星标)用于实现内存高效的注意力机制,在推理期间将VRAM消耗降低约30%。

数据对比:

| 指标 | LiveHere(自托管Cosmos) | 典型云端API(如Runway Gen-3) |
|---|---|---|
| 延迟(30秒视频) | 8-12秒 | 45-120秒 |
| 每1000个视频成本 | 12美元(仅GPU计算) | 50-150美元(API费用) |
| 数据隐私 | 完全(本地GPU) | 取决于API提供商 |
| 可定制性 | 高(相机控制、风格) | 低(限于API参数) |

数据结论: 自托管实现了4-10倍的延迟提升和4-12倍的成本降低,同时提供了绝对的数据控制权。这使得针对特定垂直领域的部署在高容量用例(如房产列表)中具有经济可行性。

关键参与者与案例研究

NVIDIA的Cosmos团队: 由高级研究科学家Ming-Yu Liu领导,Cosmos项目是NVIDIA在机器人和模拟领域推动世界模型应用的更广泛战略的一部分。该模型于2025年初发布时,受到了生成视频社区的欢迎,但由于其计算需求,最初仅局限于研究实验室使用。LiveHere在黑客马拉松中的获胜是一个强烈信号,表明该模型现已具备商业部署的实用性。

Nebius(前身为Yandex Cloud): Nebius积极将自己定位为高要求AI工作负载的基础设施提供商。其H200 NVLink集群,预留实例价格约为每GPU小时3.50美元,为AWS的p5实例(H100每GPU小时5.50美元)提供了高性价比的替代方案。Nebius的关键差异化优势在于其“AI工厂”概念:预配置的Kubernetes集群,搭载NVIDIA的NeMo框架,允许用户快速部署和扩展大规模推理任务。

更多来自 Hacker News

中国封堵西方AI模型,硅谷却拥抱DeepSeek开源力量中华人民共和国已升级对西方AI模型的监管姿态,规定任何在其境内运营的外国大语言模型必须将所有用户数据存储于国内服务器,并通过国家管理的内容安全审查。此举实际上将OpenAI、Anthropic和谷歌等公司在中国市场的合规成本提升至近乎禁止的甲骨文千亿债务炸弹:AI热潮背后的财务悬崖甲骨文向AI基础设施的转型,堪称一场财务高空走钢丝。该公司激进举债——长期债务现已突破1000亿美元——用于采购数万块NVIDIA H100和H200 GPU,建设数据中心以与亚马逊云服务(AWS)、微软Azure和谷歌云竞争。这一策略最初SentinelMCP:守护AI代理工具调用的开源防火墙AI代理的爆发式增长,离不开其与外部工具的深度融合,而模型上下文协议(MCP)正迅速成为连接这些工具的标准化桥梁。然而,当业界将大量精力聚焦于模型本身的安全性——如对齐、越狱攻击和提示注入时,代理与工具之间的通信通道却始终是一片无人设防的巨查看来源专题页Hacker News 已收录 4606 篇文章

相关专题

AI video generation45 篇相关文章

时间归档

June 20261209 篇已发布文章

延伸阅读

Avibe:让你的桌面化身持久化AI代理,手机远程掌控一切Avibe 推出了一种全新的 AI 代理范式:一个持久化、自主运行的代理,持续在你的本地桌面上工作,同时可通过手机远程访问。它融合了本地隐私与远程便利,无需依赖云端即可处理文件管理、网络研究和后台自动化任务。AbTARS:开源框架让AI智能体实现自我修复,挑战集中式AI服务霸权开源框架AbTARS为自托管AI智能体引入了持久化记忆与五层自愈架构,直击当前智能体最致命的脆弱性。它能让智能体从故障中自主恢复、维持长期上下文,无需人工干预,从而在可靠性上挑战集中式AI服务的统治地位。GymCoach:自带大模型,打造真正私密的AI健身教练一款名为GymCoach的开源项目正在重新定义健身追踪器——它允许用户自带大语言模型(LLM)。无需将敏感的健康数据上传至云端,GymCoach完全运行在你的本地硬件上,提供私密、个性化的训练计划和实时指导。Baby Magic AI 重写家庭相册:当记忆变成数字资产Baby Magic 正在重新定义家庭相册——仅凭几张真实照片或一段文字描述,就能生成以假乱真的婴儿图像和视频。AINews 深入探究这项情感 AI 背后的技术、其市场影响,以及一个令人不安的问题:当 AI 可以伪造婴儿的第一步,我们的记忆

常见问题

这次公司发布“LiveHere Uses Self-Hosted NVIDIA Cosmos to Turn Real Estate Photos into 30-Second Closing Tools”主要讲了什么?

In the cutthroat world of property rentals, a listing's fate is often decided in the first 30 seconds. Static images, no matter how well-lit, cannot compete with the visceral pull…

从“How does self-hosting NVIDIA Cosmos reduce latency for real estate video generation?”看,这家公司的这次发布为什么值得关注?

LiveHere’s core innovation lies not in training a new model, but in the strategic deployment and orchestration of NVIDIA’s Cosmos world model. Cosmos is a family of diffusion-based world models designed to generate physi…

围绕“What are the privacy advantages of running AI models on-premises for property data?”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。