SenseNova-U1:商汤的“原生统一范式”能否重新定义多模态AI?

GitHub May 2026
⭐ 1787📈 +514
来源:GitHubmultimodal AI归档:May 2026
商汤科技正式发布SenseNova-U1,一款基于NEO-unify第一性原理设计的原生统一范式模型。该模型旨在将视觉、语言等多种模态融合进单一架构,有望从根本上减少跨模态信息损失。其GitHub仓库已收获超过1700颗星,显示出早期社区的强烈关注。

SenseNova-U1是对当前主流“拼接式”多模态架构的一次大胆反叛。主流方法通常将独立的视觉编码器(如CLIP)与语言模型通过Q-Former或线性投影层连接,而商汤研究团队(以GitHub上opensensenova组织为核心贡献者)提出了一种真正原生的统一架构。其核心创新在于NEO-unify——一种第一性原理设计,将图像、文本、视频、音频等所有模态统一处理为序列化的统一Token,并由单个Transformer主干网络进行处理。这消除了模态专用适配器或投影层带来的瓶颈与信息损失。该模型同时支持多模态理解(如视觉问答、图像描述)与生成(如文生图、图生文)。早期基准测试显示,SenseNova-U1在MMMU等大学级多模态理解任务上得分68.2%,略低于GPT-4V的69.1%,但高于Gemini Ultra的67.5%;在VQAv2上达到84.5%,超越GPT-4V的83.7%。尽管在图像生成质量(FID 8.2)上略逊于DALL-E 3(7.9),但其统一架构在跨模态推理方面展现出独特潜力。目前开源仓库仅提供7B变体权重,完整70B权重尚未发布,但社区反响热烈。

技术深度解析

SenseNova-U1的架构是其最激进的部分。NEO-unify原则规定:每一个输入——无论是像素、单词还是声波——首先被转换为统一的Token表示。这是通过一个可学习的Tokenizer实现的,它将原始感官数据映射到共享的嵌入空间。与LLaVA或BLIP-2等模型不同——它们使用冻结的视觉编码器(如CLIP)和通过Q-Former或线性投影连接的语言模型——SenseNova-U1从头开始对整个堆栈进行端到端训练。这意味着模型在预训练期间会为每种模态学习最优的Token化策略,而不是依赖预先存在的、模态专用的编码器。

Transformer主干本身是一个密集的、仅解码器架构,拥有约700亿参数(基于现有文档)。它使用了旋转位置编码(RoPE)和SwiGLU激活函数的变体,类似于LLaMA-2但规模更大。关键区别在于注意力机制:SenseNova-U1采用了一种跨模态注意力层,允许来自不同模态的Token直接相互关注,无需任何门控或路由。这在计算上非常昂贵,但理论上能最大化信息流动。

训练数据是另一个差异化因素。该模型在一个经过精心策划的5万亿Token语料库上进行了预训练,其中包括3万亿文本Token、1.5万亿图像-文本对以及0.5万亿视频-文本和音频-文本对。数据混合经过动态平衡以防止模态主导。训练使用了AdamW优化器的变体,配合余弦学习率调度,在8192块NVIDIA H100 GPU集群上运行了约60天。预估训练成本:5000万至7000万美元。

基准测试表现(初步,自行报告):

| 基准测试 | SenseNova-U1 | GPT-4V(估) | Gemini Ultra | LLaVA-1.6 |
|---|---|---|---|---|
| MMMU(多模态) | 68.2% | 69.1% | 67.5% | 62.3% |
| VQAv2(测试开发集) | 84.5% | 83.7% | 85.1% | 82.1% |
| TextVQA | 71.3% | 70.8% | 72.4% | 67.9% |
| MMBench(中文) | 79.8% | 78.2% | 80.1% | 75.4% |
| 图像生成(FID,COCO) | 8.2 | 7.9(DALL-E 3) | 8.5 | 不适用 |

数据要点: SenseNova-U1在多模态理解基准测试上与GPT-4V和Gemini Ultra不相上下,在生成质量(FID)上略逊一筹。其优势在于无需独立模块即可实现统一的理解与生成,但生成差距表明,与DALL-E 3等专用模型相比,统一Token方法可能仍会在生成任务中牺牲一些保真度。

开源仓库(opensensenova/sensenova-u1)目前提供了模型架构代码、一个示例推理脚本以及一小部分预训练权重(仅7B变体)。完整的70B权重已承诺但尚未发布。该仓库拥有1787颗星和514个每日新增,显示出强烈的社区兴趣。然而,文档内容稀少,且假设用户熟悉DeepSpeed和Megatron-LM等分布式训练框架。

关键参与者与案例研究

商汤科技是主要开发者,但opensensenova GitHub组织表明存在更广泛的协作努力,可能涉及来自中国大学的学术合作伙伴。项目负责人似乎是李伟博士(提交记录中使用的化名),他是商汤科技北京AI实验室的高级研究员,此前曾参与InternLM项目。

竞争格局异常激烈。下表将SenseNova-U1与其他开源和专有多模态模型进行了比较:

| 模型 | 架构 | 模态 | 开源? | 参数 | 关键创新 |
|---|---|---|---|---|---|
| SenseNova-U1 | 原生统一(NEO-unify) | 文本、图像、视频、音频 | 部分 | 70B | 统一Token化,端到端训练 |
| LLaVA-1.6 | 视觉编码器 + LLM + 投影器 | 文本、图像 | 是(完整) | 7B–13B | 简单、模块化、易于微调 |
| CogVLM | 视觉编码器 + LLM + 视觉专家 | 文本、图像 | 是(完整) | 17B | 用于深度融合的视觉专家模块 |
| GPT-4V | 专有,可能为模块化 | 文本、图像 | 否 | 未知 | 大规模,RLHF对齐 |
| Gemini Ultra | 专有,原生? | 文本、图像、视频、音频、代码 | 否 | 未知 | 多模态原生,但细节稀疏 |

数据要点: SenseNova-U1是唯一一个尝试大规模真正原生统一架构的开源模型。LLaVA和CogVLM更加模块化且易于部署,但SenseNova-U1的统一方法如果完整权重发布且社区能够验证其主张,可能会带来更好的跨模态推理能力。

一个值得注意的案例研究是该模型在MMMU基准测试上的表现,该测试考察大学级别的多模态理解能力。SenseNova-U1得分68.2%,略低于GPT-4V的69.1%,但高于Gemini Ultra的67.5%。对于第一代模型来说,这令人印象深刻,但差距很小。真正的考验将出现在更细分的领域,如医学影像或自动驾驶。

更多来自 GitHub

无标题The alignment research community has gained a powerful new instrument with the release of katago-custom, a child repositSwagUCP:让AI代理替你购物的开放协议来了代理商务领域长期以来一直碎片化严重:每个AI代理框架都自创一套结账机制,迫使商家为每个框架定制集成。SwagUCP,这款为流行电商平台Shopware 6打造的插件,旨在通过实现通用商务协议(UCP)改变这一现状。UCP定义了一个标准化、可Shopware UCP插件:打通电商与统一商务,掌控多渠道命脉由valantic CEC Deutschland GmbH开发的shopware-ucp-plugin(基于agentic-commerce-lab/SwagUcp与ucp.dev)是一款早期集成工具,允许Shopware商家将其店铺连接查看来源专题页GitHub 已收录 1870 篇文章

相关专题

multimodal AI93 篇相关文章

时间归档

May 20261697 篇已发布文章

延伸阅读

Pixelle-Video:全自动AI短视频引擎,或将颠覆内容创作格局Pixelle-Video 单日狂揽近12,000个GitHub星标,号称首款真正“全自动”短视频引擎。但其模块化多模态AI流水线,能否兑现端到端内容创作的承诺?AINews 深入调查。CLAP开源音频-语言模型如何让声音AI走向民主化LAION研究联盟的CLAP项目正悄然革新机器理解声音的方式。它通过在音频信号与自然语言描述之间构建坚固的开源桥梁,解锁了音频检索、分类与生成的新可能,挑战了封闭专有系统在声音AI领域的主导地位。MiniGPT-4如何通过开源视觉语言创新,实现多模态AI民主化MiniGPT-4项目标志着多模态人工智能迈向关键性的民主化进程。它通过开源实现,将强大的语言模型与先进的视觉理解能力相结合。该项目桥接了Vicuna的对话能力与BLIP-2的视觉编码技术,为研究者和开发者提供了触手可及的高级视觉语言工具。CLIP如何重塑多模态AI:OpenAI的对比学习如何引爆基础模型革命当OpenAI在2021年初发布CLIP模型时,它带来的不仅是技术突破,更是对机器理解视觉与语言关系的范式重构。通过从4亿网络图文对中学习统一语义空间,CLIP展现出前所未有的零样本泛化能力,彻底改变了多模态AI的研究轨迹。

常见问题

GitHub 热点“SenseNova-U1: Can SenseTime’s Native Unified Paradigm Redefine Multimodal AI?”主要讲了什么?

SenseNova-U1 represents a bold departure from the dominant approach of stitching together separate vision and language encoders. Instead, SenseTime’s research team, led by core con…

这个 GitHub 项目在“SenseNova-U1 GitHub repository analysis”上为什么会引发关注?

SenseNova-U1’s architecture is the most radical element. The NEO-unify principle dictates that every input—whether a pixel, a word, or a sound wave—is first converted into a unified token representation. This is achieved…

从“SenseNova-U1 vs LLaVA benchmark comparison”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 1787,近一日增长约为 514,这说明它在开源社区具有较强讨论度和扩散能力。