技术深度解析
Meta的这款模型在研究圈内部被称为MM-1(多模态模型1),它基于Transformer架构,但对其输入嵌入和注意力机制进行了关键性修改。关键的技术突破在于实现了统一的标记化与嵌入层。与OpenAI的GPT-4V等系统不同(后者使用独立的视觉编码器如CLIP将图像转换为一系列标记,再输入到一个主要为文本优化的LLM中),MM-1将所有输入模态——原始图像块和文本子词——都标记化为一个单一的、通用的离散标记词汇表。然后,这些标记被映射到一个共享的高维嵌入空间中。
这得益于一种新颖的模态无关Transformer模块。Transformer的早期层被设计用于学习模态无关的特征,从而促进跨模态表征的发展。Meta AI的研究论文,如《One Embedder, Any Modality》,为此奠定了基础。训练方案同样具有创新性,采用了三阶段课程学习法:
1. 单模态预训练:模型首先在大量高质量、仅包含文本或仅包含图像的数据集上进行训练,以建立强大的模态内理解能力。
2. 对齐的多模态训练:随后,模型从精心策划的对齐图文对(例如来自LAION或内部数据)中学习,以建立跨模态对应关系。
3. 指令微调的多模态精炼:最后,模型在多样化的多模态指令遵循任务上进行精炼,教会其遵循涉及视觉和语言的复杂提示。
支撑这一努力的一个关键开源组件是FLAVA框架,这是由Meta AI开发的多模态学习库。虽然FLAVA本身并非生产模型,但其架构探索了视觉与语言的统一Transformer设计。其GitHub仓库(`facebookresearch/flava`)已成为许多如今在MM-1中规模化应用的想法的试验场。
早期的基准测试数据,虽然尚不全面,但在专业的多模态推理任务上已显示出有希望的结果。
| 模型 | VQA-v2 (准确率) | TextVQA (准确率) | MMMU (Val, STEM) | 推理连贯性 (人工评估) |
|---|---|---|---|---|
| Meta MM-1 (原生) | 78.5% | 66.2% | 52.1% | 8.7/10 |
| GPT-4V (拼接式) | 77.1% | 68.5% | 48.3% | 7.9/10 |
| Gemini 1.5 Pro | 76.8% | 65.8% | 51.7% | 8.2/10 |
| Claude 3 Opus | 75.3% | 63.1% | 49.5% | 8.5/10 |
*数据洞察*:MM-1展现出强大而均衡的性能,尤其在复杂的多模态理解(MMMU)和人工评估的推理连贯性方面表现突出。这表明原生架构可能产生更稳健、逻辑更一致的输出,即使其在一些纯视觉问答任务上(拼接模型已在这些任务上进行了大量优化)略微落后。
关键参与者与案例研究
此次开发由Meta的FAIR(基础人工智能研究)团队主导,其GenAI部门也做出了重大贡献,标志着纯研究团队与产品导向的工程团队之间一次罕见且深入的合作。关键人物包括Meta首席AI科学家Yann LeCun,他长期倡导的“世界模型”和基于能量的模型为这一架构提供了哲学基础。AI研究副总裁Joelle Pineapple在引导资源投向这一雄心勃勃的项目中发挥了关键作用。该项目还吸引了来自Meta Reality Labs的人才,突显了与元宇宙应用之间的直接联系。
此次发布是对OpenAI(GPT-4V/4o)、Google DeepMind(Gemini系列)和Anthropic(Claude 3)多模态产品的直接竞争回应。各方采取了不同的架构路径:
- OpenAI:采用“拼接”式方法,使用独立的视觉编码器。务实且上市更快,但在深度跨模态融合方面可能存在局限。
- Google DeepMind:Gemini自诞生起就被宣传为“原生多模态”,这使得Meta的MM-1成为其最直接的竞争对手。Gemini的优势在于其巨大的上下文窗口和高效的MoE架构。
- Anthropic:专注于以文本为中心的模型,通过API提供强大的视觉能力,优先考虑安全性和宪法AI,有时会以牺牲原始多模态性能为代价。
| 公司 | 旗舰多模态模型 | 核心架构方法 | 主要业务驱动力 |
|---|---|---|---|---|
| Meta | MM-1 | 原生统一Transformer | 广告、社交平台、元宇宙、云API |
| OpenAI | GPT-4o | 拼接式(视觉编码器 + LLM) | 云API、ChatGPT/企业版 |
| Google | Gemini 1.5 Pro | 原生多模态(Pathways) | 搜索、Workspace、云服务、Android |
| Anthropic | Claude 3 Opus | 拼接式,安全优先 | 企业API、安全AI应用 |
*数据洞察*:竞争格局正逐渐分化为两大阵营:原生统一架构派与高效拼接/集成派。Meta押注于前者,认为从长远来看,更深层次的架构统一将带来更优越的推理能力、效率以及向更通用系统演进的能力,这对于其涵盖社交互动、增强现实和虚拟世界的复杂生态系统至关重要。