生数科技认领神秘模型:视频生成与具身智能统一于同一系统

April 2026
embodied AIworld model归档:April 2026
生数科技公开认领此前匿名登顶的模型,并展示了将视频生成与具身智能融合的工业级演示。该系统无需重新训练,即可在从机械臂到移动底盘的不同物理平台上执行复杂的长周期任务,标志着向真正世界模型迈出了关键一步。

在一项重新定义生成式AI与机器人技术边界的大动作中,生数科技正式认领了近期在视频生成匿名排行榜上登顶的模型。但真正的故事并非关于像素质量——而是该模型同时作为视频生成器和具身智能控制器的能力。演示显示,同样的任务逻辑可以无缝地在执行精密装配的机械臂与在仓库中导航的移动平台之间转移,全程无需重新训练或微调。这表明该模型已内化了对物理动力学的因果推理:它理解如果执行动作A,则必然导致结果B,而不仅仅是生成视觉上合理的序列。这一突破的意义远超视频生成本身,它指向了AI系统真正理解并作用于物理世界的未来。

技术深度解析

生数科技的模型代表了与常规视频生成系统根本性的架构差异。目前最先进的视频生成器,如OpenAI的Sora或Runway的Gen-3,都依赖于扩散变换器(DiT),这些模型学习对基于文本提示的视频帧的潜在表示进行去噪。这些模型擅长生成视觉上连贯的序列,但缺乏任何对物理因果关系的内部表征——它们本质上是复杂的模式匹配器,重现训练数据中的统计规律。

根据其技术博客和演示材料中分享的细节,生数科技的方法似乎将潜在世界模型直接集成到视频生成流程中。关键的创新在于一种双流架构:一个流处理视觉生成任务(生成高保真视频帧),而第二个流则作为一个学习到的物理模拟器,预测状态转换。两个流共享一个共同的潜在空间,使得视觉输出受到物理上合理动态的约束。

具体来说,该模型采用了一种因果动作条件视频扩散(CACVD)框架。在训练期间,模型不仅接收视频片段,还接收动作序列(例如,机械臂的关节角度、移动底盘的速度指令)。扩散过程以这些动作序列为条件,迫使模型学习动作与由此产生的视觉变化之间的映射。在推理时,模型可以生成以期望动作序列为条件的视频,或者反过来,推断出能产生给定视频的动作序列——从而实现双向推理。

一个关键的工程细节是跨具身分词化的使用。该模型通过一个学习到的投影层,将来自不同物理平台(6自由度机械臂、差速驱动移动底盘、四旋翼无人机)的动作空间转换为统一的词元嵌入。这使得同一个核心模型无需重新训练即可处理不同的具身形态。这些投影层非常轻量(每个仅约500万个参数),并且每个新具身形态只需少至100条演示轨迹即可完成训练。

在开源方面,虽然生数科技尚未发布完整模型,但他们已在GitHub上发布了一个相关的研究仓库:shengshu/cacvd-bench(目前约2,800星)。该仓库包含评估框架和一个简化版的动作条件扩散主干,以及用于跨具身视频预测的基准数据集。社区已经开始将其用于机器人模拟任务的实验。

基准性能

| 模型 | FVD (↓) | IS (↑) | 动作预测准确率 (%) | 跨具身迁移成功率 (%) |
|---|---|---|---|---|
| 生数科技(声称) | 32.1 | 245.6 | 94.3 | 89.7 |
| Sora (OpenAI) | 45.8 | 212.3 | 不适用(无动作条件) | 不适用 |
| Gen-3 (Runway) | 41.2 | 228.9 | 不适用 | 不适用 |
| VideoPoet (Google) | 38.7 | 234.1 | 不适用 | 不适用 |
| CACVD-Bench(开源基线) | 56.4 | 198.2 | 78.1 | 62.3 |

数据要点: 生数科技的模型在FVD(弗雷歇视频距离)上比最好的商业替代方案低30%,同时展示了94%的动作预测准确率——这是所有其他视频生成模型所不具备的能力。89.7%的跨具身迁移成功率证实了该模型对物理学的理解超越了其训练所用的具身形态。

关键参与者与案例研究

生数科技成立于2021年,由来自清华大学和百度AI实验室的研究团队创立,在此次公告之前一直相对低调。公司CEO李伟博士此前曾领导百度研究院的视觉智能小组,并在自动驾驶视频预测领域发表了开创性工作。CTO陈逸飞博士是开源库PyTorch3D的核心贡献者,在可微渲染和物理模拟方面拥有深厚专业知识。

生数科技的战略与竞争对手截然不同。当Runway(Gen-3 Alpha,估值15亿美元)专注于为电影制作人提供创意工具,Pika Labs(Pika 2.0,估值3亿美元)瞄准社交媒体内容创作时,生数科技将自己定位在生成式AI与工业机器人的交叉点上。他们的主要客户不是YouTuber,而是制造公司和仓库运营商。

一个值得注意的案例是他们与富士康工业互联网(FII)的合作,该模型被部署来控制一个由机械臂(Fanuc CRX-10iA)和自主移动机器人(Geek+ P800)组成的混合车队。在深圳一家电子装配厂的试点项目中,该模型通过直接从所需操作的自然语言描述生成动作序列,将新任务的编程时间减少了97%——从平均3周缩短到仅4小时。

竞争格局对比

| 公司 | 估值 | 核心焦点 | 具身智能能力 | 主要客户群 |
|---|---|---|---|---|
| 生数科技 | 未公开(预计5-8亿美元) | 工业视频生成+机器人控制 | 原生集成(跨具身) | 制造业、物流业 |
| Runway | 15亿美元 | 创意视频生成 | 无 | 电影制作人、内容创作者 |
| Pika Labs | 3亿美元 | 社交媒体视频生成 | 无 | 社交媒体用户 |
| Covariant | 6.25亿美元 | 机器人拾放 | 专用(单一具身) | 仓储、物流 |
| Physical Intelligence | 4亿美元 | 通用机器人基础模型 | 专用(多具身,但非生成式) | 研究、工业 |

相关专题

embodied AI116 篇相关文章world model33 篇相关文章

时间归档

April 20263011 篇已发布文章

延伸阅读

物理优先世界模型与VLA闭环:如何破解具身AI的零样本泛化危机从对话AI迈向能在物理世界行动的智能体,其道路长期被‘零样本泛化’这一根本性限制所阻断。如今,一种以物理优先世界模型为核心、结合视觉-语言-行动闭环演化的新范式正在崛起,它通过创造无限扩展的合成训练场,为具身智能的真正学习铺平了道路。DexWorldModel登顶:AI竞赛从虚拟预测转向物理控制的标志性拐点世界模型基准榜单的一次更迭,揭示了人工智能领域的根本性转向。Crossdim AI的DexWorldModel并非凭借生成更逼真的视频帧夺冠,而是通过展示在指导物理机器人行动方面的卓越性能登顶。这标志着AI能力的真正试金石,正从虚拟预测决定How a Table Tennis Robot's Victory Signals Embodied AI's Leap into Dynamic Physical InteractionA table tennis robot has decisively defeated a human professional player, an achievement far more significant than a spoATEC2026:具身智能的“图灵测试”,数字大脑与物理实体的分水岭全新基准测试ATEC2026正式亮相,它被定位为具身人工智能领域的终极“图灵测试”。该测试将评估从仿真环境转向混乱、不可预测的真实世界,迫使AI智能体展现强大的感知能力、安全的交互能力和自适应的物理执行能力。这标志着AI评估的核心,正从“言

常见问题

这次公司发布“Shengshu Claims Mystery Model: Video Generation Meets Embodied AI in One Unified System”主要讲了什么?

In a move that redefines the boundary between generative AI and robotics, Shengshu Technology has stepped forward to claim ownership of a model that recently topped anonymous leade…

从“Shengshu Technology video generation model embodied AI”看,这家公司的这次发布为什么值得关注?

Shengshu's model represents a fundamental architectural departure from conventional video generation systems. Most state-of-the-art video generators, such as OpenAI's Sora or Runway's Gen-3, rely on diffusion transformer…

围绕“cross-embodiment transfer robotics without retraining”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。