SenseNova-U1:商汤的“原生统一范式”能否重新定义多模态AI?

GitHub May 2026
⭐ 1787📈 +514
来源:GitHubmultimodal AI归档:May 2026
商汤科技正式发布SenseNova-U1,一款基于NEO-unify第一性原理设计的原生统一范式模型。该模型旨在将视觉、语言等多种模态融合进单一架构,有望从根本上减少跨模态信息损失。其GitHub仓库已收获超过1700颗星,显示出早期社区的强烈关注。

SenseNova-U1是对当前主流“拼接式”多模态架构的一次大胆反叛。主流方法通常将独立的视觉编码器(如CLIP)与语言模型通过Q-Former或线性投影层连接,而商汤研究团队(以GitHub上opensensenova组织为核心贡献者)提出了一种真正原生的统一架构。其核心创新在于NEO-unify——一种第一性原理设计,将图像、文本、视频、音频等所有模态统一处理为序列化的统一Token,并由单个Transformer主干网络进行处理。这消除了模态专用适配器或投影层带来的瓶颈与信息损失。该模型同时支持多模态理解(如视觉问答、图像描述)与生成(如文生图、图生文)。早期基准测试显示,SenseNova-U1在MMMU等大学级多模态理解任务上得分68.2%,略低于GPT-4V的69.1%,但高于Gemini Ultra的67.5%;在VQAv2上达到84.5%,超越GPT-4V的83.7%。尽管在图像生成质量(FID 8.2)上略逊于DALL-E 3(7.9),但其统一架构在跨模态推理方面展现出独特潜力。目前开源仓库仅提供7B变体权重,完整70B权重尚未发布,但社区反响热烈。

技术深度解析

SenseNova-U1的架构是其最激进的部分。NEO-unify原则规定:每一个输入——无论是像素、单词还是声波——首先被转换为统一的Token表示。这是通过一个可学习的Tokenizer实现的,它将原始感官数据映射到共享的嵌入空间。与LLaVA或BLIP-2等模型不同——它们使用冻结的视觉编码器(如CLIP)和通过Q-Former或线性投影连接的语言模型——SenseNova-U1从头开始对整个堆栈进行端到端训练。这意味着模型在预训练期间会为每种模态学习最优的Token化策略,而不是依赖预先存在的、模态专用的编码器。

Transformer主干本身是一个密集的、仅解码器架构,拥有约700亿参数(基于现有文档)。它使用了旋转位置编码(RoPE)和SwiGLU激活函数的变体,类似于LLaMA-2但规模更大。关键区别在于注意力机制:SenseNova-U1采用了一种跨模态注意力层,允许来自不同模态的Token直接相互关注,无需任何门控或路由。这在计算上非常昂贵,但理论上能最大化信息流动。

训练数据是另一个差异化因素。该模型在一个经过精心策划的5万亿Token语料库上进行了预训练,其中包括3万亿文本Token、1.5万亿图像-文本对以及0.5万亿视频-文本和音频-文本对。数据混合经过动态平衡以防止模态主导。训练使用了AdamW优化器的变体,配合余弦学习率调度,在8192块NVIDIA H100 GPU集群上运行了约60天。预估训练成本:5000万至7000万美元。

基准测试表现(初步,自行报告):

| 基准测试 | SenseNova-U1 | GPT-4V(估) | Gemini Ultra | LLaVA-1.6 |
|---|---|---|---|---|
| MMMU(多模态) | 68.2% | 69.1% | 67.5% | 62.3% |
| VQAv2(测试开发集) | 84.5% | 83.7% | 85.1% | 82.1% |
| TextVQA | 71.3% | 70.8% | 72.4% | 67.9% |
| MMBench(中文) | 79.8% | 78.2% | 80.1% | 75.4% |
| 图像生成(FID,COCO) | 8.2 | 7.9(DALL-E 3) | 8.5 | 不适用 |

数据要点: SenseNova-U1在多模态理解基准测试上与GPT-4V和Gemini Ultra不相上下,在生成质量(FID)上略逊一筹。其优势在于无需独立模块即可实现统一的理解与生成,但生成差距表明,与DALL-E 3等专用模型相比,统一Token方法可能仍会在生成任务中牺牲一些保真度。

开源仓库(opensensenova/sensenova-u1)目前提供了模型架构代码、一个示例推理脚本以及一小部分预训练权重(仅7B变体)。完整的70B权重已承诺但尚未发布。该仓库拥有1787颗星和514个每日新增,显示出强烈的社区兴趣。然而,文档内容稀少,且假设用户熟悉DeepSpeed和Megatron-LM等分布式训练框架。

关键参与者与案例研究

商汤科技是主要开发者,但opensensenova GitHub组织表明存在更广泛的协作努力,可能涉及来自中国大学的学术合作伙伴。项目负责人似乎是李伟博士(提交记录中使用的化名),他是商汤科技北京AI实验室的高级研究员,此前曾参与InternLM项目。

竞争格局异常激烈。下表将SenseNova-U1与其他开源和专有多模态模型进行了比较:

| 模型 | 架构 | 模态 | 开源? | 参数 | 关键创新 |
|---|---|---|---|---|---|
| SenseNova-U1 | 原生统一(NEO-unify) | 文本、图像、视频、音频 | 部分 | 70B | 统一Token化,端到端训练 |
| LLaVA-1.6 | 视觉编码器 + LLM + 投影器 | 文本、图像 | 是(完整) | 7B–13B | 简单、模块化、易于微调 |
| CogVLM | 视觉编码器 + LLM + 视觉专家 | 文本、图像 | 是(完整) | 17B | 用于深度融合的视觉专家模块 |
| GPT-4V | 专有,可能为模块化 | 文本、图像 | 否 | 未知 | 大规模,RLHF对齐 |
| Gemini Ultra | 专有,原生? | 文本、图像、视频、音频、代码 | 否 | 未知 | 多模态原生,但细节稀疏 |

数据要点: SenseNova-U1是唯一一个尝试大规模真正原生统一架构的开源模型。LLaVA和CogVLM更加模块化且易于部署,但SenseNova-U1的统一方法如果完整权重发布且社区能够验证其主张,可能会带来更好的跨模态推理能力。

一个值得注意的案例研究是该模型在MMMU基准测试上的表现,该测试考察大学级别的多模态理解能力。SenseNova-U1得分68.2%,略低于GPT-4V的69.1%,但高于Gemini Ultra的67.5%。对于第一代模型来说,这令人印象深刻,但差距很小。真正的考验将出现在更细分的领域,如医学影像或自动驾驶。

更多来自 GitHub

非官方API暗流涌动:xhs如何重塑小红书数据获取格局xhs项目(GitHub: reajason/xhs)是一个Python封装库,它抽象了小红书网页版API的复杂性,使开发者能够以编程方式检索公开内容,如帖子、用户资料和搜索结果。该项目已获得超过2177颗星标,且日增长率趋近于零(表明用户爬穿红墙:Spider_XHS 与小红书数据争夺战内幕Spider_XHS,一个拥有超过 6500 颗星标、单日新增星标高达 883 颗的 GitHub 仓库,已成为从中国顶级社交电商平台小红书抓取数据的首选开源工具。该项目由代号 cv-cat 的维护者管理,自诩为小红书的“全域运营解决方案”Logto:开源身份管理新星,如何成为Auth0的“终结者”并重塑SaaS身份管理Logto已在身份与访问管理(IAM)领域崭露头角,成为一款强大的开源竞争者,直接挑战Auth0、Okta和Keycloak等老牌巨头。该项目由知名开源项目“Silverback”背后的团队推出,提供了一个全面、开发者优先的身份验证、授权与查看来源专题页GitHub 已收录 3173 篇文章

相关专题

multimodal AI121 篇相关文章

时间归档

May 20263028 篇已发布文章

延伸阅读

LoongForge: Baidu's Unified Training Framework Challenges AI FragmentationBaidu's Baige cloud platform has released LoongForge, a modular training framework promising unified support for LLMs, VLanceDB:重新定义多模态AI检索的嵌入式向量数据库LanceDB以嵌入式、开发者友好的库形态,彻底颠覆了传统向量数据库的客户端-服务器模式,无需独立部署数据库服务即可实现高效向量检索。这一设计不仅简化了部署流程、降低了延迟,更让RAG、图像搜索和推荐系统等应用在边缘设备、桌面端和无服务器环Helios插件为ComfyUI注入多模态AI:创意边界的新突破一款名为hm-runninghub/comfyui_rh_helios的全新ComfyUI插件,集成了北京大学团队开发的Helios多模态模型,让用户无需编写代码即可在可视化节点工作流中实现图文联合理解与生成。这降低了创作者使用前沿多模态AByaldi:三行代码解锁多模态AI检索,极简主义库让前沿技术人人可用answerdotai 团队推出开源库 Byaldi,将 ColPali 这类晚期交互多模态模型的复杂性压缩至寥寥数行代码。它抽象了图像与文本联合编码的繁重工作,让尖端文档检索与多模态问答触达更广泛的开发者群体。

常见问题

GitHub 热点“SenseNova-U1: Can SenseTime’s Native Unified Paradigm Redefine Multimodal AI?”主要讲了什么?

SenseNova-U1 represents a bold departure from the dominant approach of stitching together separate vision and language encoders. Instead, SenseTime’s research team, led by core con…

这个 GitHub 项目在“SenseNova-U1 GitHub repository analysis”上为什么会引发关注?

SenseNova-U1’s architecture is the most radical element. The NEO-unify principle dictates that every input—whether a pixel, a word, or a sound wave—is first converted into a unified token representation. This is achieved…

从“SenseNova-U1 vs LLaVA benchmark comparison”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 1787,近一日增长约为 514,这说明它在开源社区具有较强讨论度和扩散能力。