技术深度解析
SenseNova-U1的架构是其最激进的部分。NEO-unify原则规定:每一个输入——无论是像素、单词还是声波——首先被转换为统一的Token表示。这是通过一个可学习的Tokenizer实现的,它将原始感官数据映射到共享的嵌入空间。与LLaVA或BLIP-2等模型不同——它们使用冻结的视觉编码器(如CLIP)和通过Q-Former或线性投影连接的语言模型——SenseNova-U1从头开始对整个堆栈进行端到端训练。这意味着模型在预训练期间会为每种模态学习最优的Token化策略,而不是依赖预先存在的、模态专用的编码器。
Transformer主干本身是一个密集的、仅解码器架构,拥有约700亿参数(基于现有文档)。它使用了旋转位置编码(RoPE)和SwiGLU激活函数的变体,类似于LLaMA-2但规模更大。关键区别在于注意力机制:SenseNova-U1采用了一种跨模态注意力层,允许来自不同模态的Token直接相互关注,无需任何门控或路由。这在计算上非常昂贵,但理论上能最大化信息流动。
训练数据是另一个差异化因素。该模型在一个经过精心策划的5万亿Token语料库上进行了预训练,其中包括3万亿文本Token、1.5万亿图像-文本对以及0.5万亿视频-文本和音频-文本对。数据混合经过动态平衡以防止模态主导。训练使用了AdamW优化器的变体,配合余弦学习率调度,在8192块NVIDIA H100 GPU集群上运行了约60天。预估训练成本:5000万至7000万美元。
基准测试表现(初步,自行报告):
| 基准测试 | SenseNova-U1 | GPT-4V(估) | Gemini Ultra | LLaVA-1.6 |
|---|---|---|---|---|
| MMMU(多模态) | 68.2% | 69.1% | 67.5% | 62.3% |
| VQAv2(测试开发集) | 84.5% | 83.7% | 85.1% | 82.1% |
| TextVQA | 71.3% | 70.8% | 72.4% | 67.9% |
| MMBench(中文) | 79.8% | 78.2% | 80.1% | 75.4% |
| 图像生成(FID,COCO) | 8.2 | 7.9(DALL-E 3) | 8.5 | 不适用 |
数据要点: SenseNova-U1在多模态理解基准测试上与GPT-4V和Gemini Ultra不相上下,在生成质量(FID)上略逊一筹。其优势在于无需独立模块即可实现统一的理解与生成,但生成差距表明,与DALL-E 3等专用模型相比,统一Token方法可能仍会在生成任务中牺牲一些保真度。
开源仓库(opensensenova/sensenova-u1)目前提供了模型架构代码、一个示例推理脚本以及一小部分预训练权重(仅7B变体)。完整的70B权重已承诺但尚未发布。该仓库拥有1787颗星和514个每日新增,显示出强烈的社区兴趣。然而,文档内容稀少,且假设用户熟悉DeepSpeed和Megatron-LM等分布式训练框架。
关键参与者与案例研究
商汤科技是主要开发者,但opensensenova GitHub组织表明存在更广泛的协作努力,可能涉及来自中国大学的学术合作伙伴。项目负责人似乎是李伟博士(提交记录中使用的化名),他是商汤科技北京AI实验室的高级研究员,此前曾参与InternLM项目。
竞争格局异常激烈。下表将SenseNova-U1与其他开源和专有多模态模型进行了比较:
| 模型 | 架构 | 模态 | 开源? | 参数 | 关键创新 |
|---|---|---|---|---|---|
| SenseNova-U1 | 原生统一(NEO-unify) | 文本、图像、视频、音频 | 部分 | 70B | 统一Token化,端到端训练 |
| LLaVA-1.6 | 视觉编码器 + LLM + 投影器 | 文本、图像 | 是(完整) | 7B–13B | 简单、模块化、易于微调 |
| CogVLM | 视觉编码器 + LLM + 视觉专家 | 文本、图像 | 是(完整) | 17B | 用于深度融合的视觉专家模块 |
| GPT-4V | 专有,可能为模块化 | 文本、图像 | 否 | 未知 | 大规模,RLHF对齐 |
| Gemini Ultra | 专有,原生? | 文本、图像、视频、音频、代码 | 否 | 未知 | 多模态原生,但细节稀疏 |
数据要点: SenseNova-U1是唯一一个尝试大规模真正原生统一架构的开源模型。LLaVA和CogVLM更加模块化且易于部署,但SenseNova-U1的统一方法如果完整权重发布且社区能够验证其主张,可能会带来更好的跨模态推理能力。
一个值得注意的案例研究是该模型在MMMU基准测试上的表现,该测试考察大学级别的多模态理解能力。SenseNova-U1得分68.2%,略低于GPT-4V的69.1%,但高于Gemini Ultra的67.5%。对于第一代模型来说,这令人印象深刻,但差距很小。真正的考验将出现在更细分的领域,如医学影像或自动驾驶。