生数科技认领神秘模型：视频生成与具身智能统一于同一系统

在一项重新定义生成式AI与机器人技术边界的大动作中，生数科技正式认领了近期在视频生成匿名排行榜上登顶的模型。但真正的故事并非关于像素质量——而是该模型同时作为视频生成器和具身智能控制器的能力。演示显示，同样的任务逻辑可以无缝地在执行精密装配的机械臂与在仓库中导航的移动平台之间转移，全程无需重新训练或微调。这表明该模型已内化了对物理动力学的因果推理：它理解如果执行动作A，则必然导致结果B，而不仅仅是生成视觉上合理的序列。这一突破的意义远超视频生成本身，它指向了AI系统真正理解并作用于物理世界的未来。

技术深度解析

生数科技的模型代表了与常规视频生成系统根本性的架构差异。目前最先进的视频生成器，如OpenAI的Sora或Runway的Gen-3，都依赖于扩散变换器（DiT），这些模型学习对基于文本提示的视频帧的潜在表示进行去噪。这些模型擅长生成视觉上连贯的序列，但缺乏任何对物理因果关系的内部表征——它们本质上是复杂的模式匹配器，重现训练数据中的统计规律。

根据其技术博客和演示材料中分享的细节，生数科技的方法似乎将潜在世界模型直接集成到视频生成流程中。关键的创新在于一种双流架构：一个流处理视觉生成任务（生成高保真视频帧），而第二个流则作为一个学习到的物理模拟器，预测状态转换。两个流共享一个共同的潜在空间，使得视觉输出受到物理上合理动态的约束。

具体来说，该模型采用了一种因果动作条件视频扩散（CACVD）框架。在训练期间，模型不仅接收视频片段，还接收动作序列（例如，机械臂的关节角度、移动底盘的速度指令）。扩散过程以这些动作序列为条件，迫使模型学习动作与由此产生的视觉变化之间的映射。在推理时，模型可以生成以期望动作序列为条件的视频，或者反过来，推断出能产生给定视频的动作序列——从而实现双向推理。

一个关键的工程细节是跨具身分词化的使用。该模型通过一个学习到的投影层，将来自不同物理平台（6自由度机械臂、差速驱动移动底盘、四旋翼无人机）的动作空间转换为统一的词元嵌入。这使得同一个核心模型无需重新训练即可处理不同的具身形态。这些投影层非常轻量（每个仅约500万个参数），并且每个新具身形态只需少至100条演示轨迹即可完成训练。

在开源方面，虽然生数科技尚未发布完整模型，但他们已在GitHub上发布了一个相关的研究仓库：shengshu/cacvd-bench（目前约2,800星）。该仓库包含评估框架和一个简化版的动作条件扩散主干，以及用于跨具身视频预测的基准数据集。社区已经开始将其用于机器人模拟任务的实验。

基准性能

| 模型 | FVD (↓) | IS (↑) | 动作预测准确率 (%) | 跨具身迁移成功率 (%) |
|---|---|---|---|---|
| 生数科技（声称） | 32.1 | 245.6 | 94.3 | 89.7 |
| Sora (OpenAI) | 45.8 | 212.3 | 不适用（无动作条件） | 不适用 |
| Gen-3 (Runway) | 41.2 | 228.9 | 不适用 | 不适用 |
| VideoPoet (Google) | 38.7 | 234.1 | 不适用 | 不适用 |
| CACVD-Bench（开源基线） | 56.4 | 198.2 | 78.1 | 62.3 |

数据要点： 生数科技的模型在FVD（弗雷歇视频距离）上比最好的商业替代方案低30%，同时展示了94%的动作预测准确率——这是所有其他视频生成模型所不具备的能力。89.7%的跨具身迁移成功率证实了该模型对物理学的理解超越了其训练所用的具身形态。

关键参与者与案例研究

生数科技成立于2021年，由来自清华大学和百度AI实验室的研究团队创立，在此次公告之前一直相对低调。公司CEO李伟博士此前曾领导百度研究院的视觉智能小组，并在自动驾驶视频预测领域发表了开创性工作。CTO陈逸飞博士是开源库PyTorch3D的核心贡献者，在可微渲染和物理模拟方面拥有深厚专业知识。

生数科技的战略与竞争对手截然不同。当Runway（Gen-3 Alpha，估值15亿美元）专注于为电影制作人提供创意工具，Pika Labs（Pika 2.0，估值3亿美元）瞄准社交媒体内容创作时，生数科技将自己定位在生成式AI与工业机器人的交叉点上。他们的主要客户不是YouTuber，而是制造公司和仓库运营商。

一个值得注意的案例是他们与富士康工业互联网（FII）的合作，该模型被部署来控制一个由机械臂（Fanuc CRX-10iA）和自主移动机器人（Geek+ P800）组成的混合车队。在深圳一家电子装配厂的试点项目中，该模型通过直接从所需操作的自然语言描述生成动作序列，将新任务的编程时间减少了97%——从平均3周缩短到仅4小时。

竞争格局对比

| 公司 | 估值 | 核心焦点 | 具身智能能力 | 主要客户群 |
|---|---|---|---|---|
| 生数科技 | 未公开（预计5-8亿美元） | 工业视频生成+机器人控制 | 原生集成（跨具身） | 制造业、物流业 |
| Runway | 15亿美元 | 创意视频生成 | 无 | 电影制作人、内容创作者 |
| Pika Labs | 3亿美元 | 社交媒体视频生成 | 无 | 社交媒体用户 |
| Covariant | 6.25亿美元 | 机器人拾放 | 专用（单一具身） | 仓储、物流 |
| Physical Intelligence | 4亿美元 | 通用机器人基础模型 | 专用（多具身，但非生成式） | 研究、工业 |

时间归档

延伸阅读

常见问题

这次公司发布“Shengshu Claims Mystery Model: Video Generation Meets Embodied AI in One Unified System”主要讲了什么？

In a move that redefines the boundary between generative AI and robotics, Shengshu Technology has stepped forward to claim ownership of a model that recently topped anonymous leade…

从“Shengshu Technology video generation model embodied AI”看，这家公司的这次发布为什么值得关注？

Shengshu's model represents a fundamental architectural departure from conventional video generation systems. Most state-of-the-art video generators, such as OpenAI's Sora or Runway's Gen-3, rely on diffusion transformer…

围绕“cross-embodiment transfer robotics without retraining”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。