技术深度解析
实现现代多模态AI的核心创新在于创建联合嵌入空间。从架构上看,这是通过双编码器或多编码器模型实现的,其中独立的神经网络(编码器)处理每种模态。一个文本编码器(通常是BERT或T5这类Transformer)和一个图像编码器(如Vision Transformer或CNN)被同时训练,使得语义上相似的文本-图像对在共享的高维空间中具有紧密对齐的向量表示(嵌入)。训练目标通常是对比损失,例如InfoNCE,它将正样本对(匹配的图像和标题)拉近,同时将负样本对推远。
近期的框架已从图文扩展到包含音频、视频和结构化数据。关键的工程挑战是模态无关的对齐。解决方案包括:
1. 投影网络:每个编码器输出到特定于模态的子空间,然后通过线性层投影到一个公共空间。
2. 交叉注意力融合:更先进的模型,如Google的Flamingo或DeepMind的Gato,使用交叉注意力机制,允许一种模态的标记在编码过程中直接关注另一种模态的特征,从而在嵌入前实现更深度的融合。
3. 统一分词:像Meta的Data2Vec和OpenAI的CLAP(用于音频)这类方法,旨在通过将所有输入在处理前转换为统一的分词格式,来实现统一的训练范式。
一个关键的开源项目是OpenCLIP,这是CLIP架构的社区维护实现。其GitHub仓库(`openai/CLIP`的分支)不仅提供模型代码,还提供了广泛的训练脚本、数据集和基准测试。它的演变展示了框架的成熟过程:早期版本需要大量专业知识才能训练,而当前迭代提供了更稳健的超参数集、分布式训练支持和更简易的微调流程。另一个重要的仓库是Facebook AI Research的LAVIS,这是一个用于语言-视觉智能的综合库,集成了BLIP、BLIP-2和ALBEF等模型的训练框架,简化了视觉-语言任务的开发。
性能通过跨模态的检索准确率(例如,recall@K)来衡量。下表显示了在图像-文本检索标准数据集MS-COCO(5K测试集)上的基准测试结果。
| 模型 / 框架 | 图像到文本 R@1 | 文本到图像 R@1 | 训练数据规模 | 嵌入维度 |
|---|---|---|---|---|
| CLIP (ViT-L/14) | 58.4% | 41.5% | 4亿对 | 768 |
| ALIGN (Google) | 65.3% | 45.6% | 18亿对 | 1024 |
| BLIP-2 (LAVIS) | 72.1% | 52.3% | 1.29亿标注 + 网络数据 | 256 |
| OpenCLIP (ViT-H/14) | 68.3% | 48.7% | 20亿+对 (LAION) | 1024 |
数据启示:数据呈现出一个清晰趋势:扩大训练数据规模(ALIGN, OpenCLIP)能提升性能,但更高效的架构和训练技术(BLIP-2)可以用更少的数据实现更优的结果。BLIP-2在数据对更少的情况下获得更高分数,凸显了模型架构和数据质量筛选的重要性,而非仅仅依赖暴力缩放。
重排序模型增加了另一层,作为“二次筛选”来优化检索结果。它们通常是更小的交叉编码器模型,在查询和候选结果之间进行深度但计算成本较高的交互。例如,一个ColBERT风格的模型或一个微调过的MiniLM,可以对基于嵌入的检索返回的前100个结果进行重新评分,利用完整的交叉注意力来捕捉嵌入空间中简单的余弦相似度可能忽略的细微相关性。
主要参与者与案例研究
这一领域汇聚了基础研究实验室、云超大规模提供商和专业初创公司。
研究先驱:
* OpenAI 凭借CLIP和DALL-E(使用CLIP进行引导)确立了现代范式。他们的策略是发布有影响力的研究和受控的API,从而塑造领域方向。
* Google Research 和 DeepMind 成果丰硕,包括ALIGN、Flamingo和CM3(因果掩码多模态模型)。他们的优势在于将这些能力直接集成到Google搜索和YouTube等产品中。
* Meta AI 通过LAVIS等框架和ImageBind等模型为开源生态系统做出重大贡献,ImageBind旨在以图像为枢纽,将六种模态(图像、文本、音频、深度、热感、IMU)绑定到一个嵌入空间中。
云与平台提供商:
* Microsoft Azure AI 提供集成向量搜索的Azure Cognitive Search,并通过其与OpenAI的合作以及Florence等模型推广多模态嵌入。
* Google Cloud的Vertex AI 提供多模态嵌入API和向量搜索,利用了其内部研究成果。
* AWS 提供诸如Amazon Bedrock(包含Titan多模态嵌入)和Kendra等服务。