SenseNova-U1：商汤的“原生统一范式”能否重新定义多模态AI？

2026年5月16日 04:04 AINews GitHub May 2026

⭐ 1787📈 +514

来源：GitHub multimodal AI 归档：May 2026

商汤科技正式发布SenseNova-U1，一款基于NEO-unify第一性原理设计的原生统一范式模型。该模型旨在将视觉、语言等多种模态融合进单一架构，有望从根本上减少跨模态信息损失。其GitHub仓库已收获超过1700颗星，显示出早期社区的强烈关注。

SenseNova-U1是对当前主流“拼接式”多模态架构的一次大胆反叛。主流方法通常将独立的视觉编码器（如CLIP）与语言模型通过Q-Former或线性投影层连接，而商汤研究团队（以GitHub上opensensenova组织为核心贡献者）提出了一种真正原生的统一架构。其核心创新在于NEO-unify——一种第一性原理设计，将图像、文本、视频、音频等所有模态统一处理为序列化的统一Token，并由单个Transformer主干网络进行处理。这消除了模态专用适配器或投影层带来的瓶颈与信息损失。该模型同时支持多模态理解（如视觉问答、图像描述）与生成（如文生图、图生文）。早期基准测试显示，SenseNova-U1在MMMU等大学级多模态理解任务上得分68.2%，略低于GPT-4V的69.1%，但高于Gemini Ultra的67.5%；在VQAv2上达到84.5%，超越GPT-4V的83.7%。尽管在图像生成质量（FID 8.2）上略逊于DALL-E 3（7.9），但其统一架构在跨模态推理方面展现出独特潜力。目前开源仓库仅提供7B变体权重，完整70B权重尚未发布，但社区反响热烈。

技术深度解析

SenseNova-U1的架构是其最激进的部分。NEO-unify原则规定：每一个输入——无论是像素、单词还是声波——首先被转换为统一的Token表示。这是通过一个可学习的Tokenizer实现的，它将原始感官数据映射到共享的嵌入空间。与LLaVA或BLIP-2等模型不同——它们使用冻结的视觉编码器（如CLIP）和通过Q-Former或线性投影连接的语言模型——SenseNova-U1从头开始对整个堆栈进行端到端训练。这意味着模型在预训练期间会为每种模态学习最优的Token化策略，而不是依赖预先存在的、模态专用的编码器。

Transformer主干本身是一个密集的、仅解码器架构，拥有约700亿参数（基于现有文档）。它使用了旋转位置编码（RoPE）和SwiGLU激活函数的变体，类似于LLaMA-2但规模更大。关键区别在于注意力机制：SenseNova-U1采用了一种跨模态注意力层，允许来自不同模态的Token直接相互关注，无需任何门控或路由。这在计算上非常昂贵，但理论上能最大化信息流动。

训练数据是另一个差异化因素。该模型在一个经过精心策划的5万亿Token语料库上进行了预训练，其中包括3万亿文本Token、1.5万亿图像-文本对以及0.5万亿视频-文本和音频-文本对。数据混合经过动态平衡以防止模态主导。训练使用了AdamW优化器的变体，配合余弦学习率调度，在8192块NVIDIA H100 GPU集群上运行了约60天。预估训练成本：5000万至7000万美元。

基准测试表现（初步，自行报告）：

| 基准测试 | SenseNova-U1 | GPT-4V（估） | Gemini Ultra | LLaVA-1.6 |
|---|---|---|---|---|
| MMMU（多模态） | 68.2% | 69.1% | 67.5% | 62.3% |
| VQAv2（测试开发集） | 84.5% | 83.7% | 85.1% | 82.1% |
| TextVQA | 71.3% | 70.8% | 72.4% | 67.9% |
| MMBench（中文） | 79.8% | 78.2% | 80.1% | 75.4% |
| 图像生成（FID，COCO） | 8.2 | 7.9（DALL-E 3） | 8.5 | 不适用 |

数据要点： SenseNova-U1在多模态理解基准测试上与GPT-4V和Gemini Ultra不相上下，在生成质量（FID）上略逊一筹。其优势在于无需独立模块即可实现统一的理解与生成，但生成差距表明，与DALL-E 3等专用模型相比，统一Token方法可能仍会在生成任务中牺牲一些保真度。

开源仓库（opensensenova/sensenova-u1）目前提供了模型架构代码、一个示例推理脚本以及一小部分预训练权重（仅7B变体）。完整的70B权重已承诺但尚未发布。该仓库拥有1787颗星和514个每日新增，显示出强烈的社区兴趣。然而，文档内容稀少，且假设用户熟悉DeepSpeed和Megatron-LM等分布式训练框架。

关键参与者与案例研究

商汤科技是主要开发者，但opensensenova GitHub组织表明存在更广泛的协作努力，可能涉及来自中国大学的学术合作伙伴。项目负责人似乎是李伟博士（提交记录中使用的化名），他是商汤科技北京AI实验室的高级研究员，此前曾参与InternLM项目。

竞争格局异常激烈。下表将SenseNova-U1与其他开源和专有多模态模型进行了比较：

| 模型 | 架构 | 模态 | 开源？ | 参数 | 关键创新 |
|---|---|---|---|---|---|
| SenseNova-U1 | 原生统一（NEO-unify） | 文本、图像、视频、音频 | 部分 | 70B | 统一Token化，端到端训练 |
| LLaVA-1.6 | 视觉编码器 + LLM + 投影器 | 文本、图像 | 是（完整） | 7B–13B | 简单、模块化、易于微调 |
| CogVLM | 视觉编码器 + LLM + 视觉专家 | 文本、图像 | 是（完整） | 17B | 用于深度融合的视觉专家模块 |
| GPT-4V | 专有，可能为模块化 | 文本、图像 | 否 | 未知 | 大规模，RLHF对齐 |
| Gemini Ultra | 专有，原生？ | 文本、图像、视频、音频、代码 | 否 | 未知 | 多模态原生，但细节稀疏 |

数据要点： SenseNova-U1是唯一一个尝试大规模真正原生统一架构的开源模型。LLaVA和CogVLM更加模块化且易于部署，但SenseNova-U1的统一方法如果完整权重发布且社区能够验证其主张，可能会带来更好的跨模态推理能力。

一个值得注意的案例研究是该模型在MMMU基准测试上的表现，该测试考察大学级别的多模态理解能力。SenseNova-U1得分68.2%，略低于GPT-4V的69.1%，但高于Gemini Ultra的67.5%。对于第一代模型来说，这令人印象深刻，但差距很小。真正的考验将出现在更细分的领域，如医学影像或自动驾驶。

时间归档

常见问题

GitHub 热点“SenseNova-U1: Can SenseTime’s Native Unified Paradigm Redefine Multimodal AI?”主要讲了什么？

SenseNova-U1 represents a bold departure from the dominant approach of stitching together separate vision and language encoders. Instead, SenseTime’s research team, led by core con…

这个 GitHub 项目在“SenseNova-U1 GitHub repository analysis”上为什么会引发关注？

SenseNova-U1’s architecture is the most radical element. The NEO-unify principle dictates that every input—whether a pixel, a word, or a sound wave—is first converted into a unified token representation. This is achieved…

从“SenseNova-U1 vs LLaVA benchmark comparison”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 1787，近一日增长约为 514，这说明它在开源社区具有较强讨论度和扩散能力。

SenseNova-U1：商汤的“原生统一范式”能否重新定义多模态AI？

技术深度解析

关键参与者与案例研究

更多来自 GitHub

相关专题

时间归档

延伸阅读

常见问题