技术深度解析
DeepSeek 的新图像模式代表了显著的架构演进。构建视觉语言模型(VLM)的核心挑战在于将视觉编码器——通常是 Vision Transformer(ViT)或卷积神经网络(CNN)变体——与大语言模型(LLM)对齐。DeepSeek 的方法可能涉及一个预训练的视觉编码器,用于从图像中提取特征嵌入,然后通过一个可学习的投影层或 Q-Former 风格的连接器将这些嵌入投影到 LLM 的嵌入空间中。这使得 LLM 能够通过将图像特征视为一系列令牌(tokens)来“看见”,并与文本令牌一起进行注意力计算。
一个关键技术细节是训练流程。模型首先在海量图像-文本对数据集(例如 LAION-5B、COYO-700M)上进行对比学习预训练,然后在指令遵循数据上进行微调,以完成视觉问答(VQA)、光学字符识别(OCR)和场景理解等任务。DeepSeek 的优势可能在于其高效的训练方法,历史上这使其能够以更少的计算资源实现具有竞争力的性能。灰度测试可能包括针对特定任务(如文档解析(PDF、表格)和物体识别)的 A/B 测试,在这些任务中模型必须展示高准确率和低幻觉率。
一个值得关注的开源仓库是 LLaVA 家族(GitHub: haotian-liu/LLaVA,20k+ 星标),它开创了一种简单而有效的视觉指令微调方法。另一个是 Qwen-VL(GitHub: QwenLM/Qwen-VL,10k+ 星标),它提供了强大的多语言能力。DeepSeek 的模型可能采用类似的架构模式,但带有其自身的专有优化。下表比较了关键 VLM 在标准基准测试上的表现:
| 模型 | 参数(估计) | VQA v2 准确率 | MMMU(多模态) | OCRBench | 成本/百万令牌(图像输入) |
|---|---|---|---|---|---|
| GPT-4V (OpenAI) | 未知 | 77.2% | 56.8% | 68.5% | $10.00 |
| Gemini Pro Vision (Google) | 未知 | 74.6% | 52.1% | 62.3% | $7.50 |
| Claude 3 Sonnet (Anthropic) | 未知 | 73.1% | 50.4% | 60.1% | $3.00 |
| DeepSeek 图像模式(估计) | ~70B(文本)+ ViT-L | 72.0%(目标) | 48.5%(目标) | 58.0%(目标) | $1.50(估计) |
数据要点: DeepSeek 的估计性能目标在标准基准测试上略低于顶级模型,但其每令牌的预计成本显著更低——比 GPT-4V 低 5-7 倍。这表明其策略是故意提供一种“足够好”的多模态体验,并以颠覆性的价格定位,瞄准对成本敏感的企业应用,如文档处理和数据分析。
关键参与者与案例研究
多模态 AI 领域已经挤满了主要参与者,各有不同的策略。OpenAI 的 GPT-4V 仍然是通用视觉语言任务的金标准,在复杂推理和创意任务中表现出色。Google 的 Gemini 系列(Ultra、Pro、Nano)与 Google 生态系统深度集成,原生支持 YouTube 视频、Google 地图和搜索。Anthropic 的 Claude 3 模型强调安全性和长上下文理解,其视觉能力具有竞争力,但在细粒度任务上略逊于 GPT-4V。
DeepSeek 的入场因其定位而引人注目。与这些巨头不同,DeepSeek 凭借开源贡献和成本效率建立了声誉。其之前的纯文本模型 DeepSeek-V2 在推理成本仅为 GPT-4 一小部分的情况下实现了与之相当的性能,这主要归功于其混合专家(MoE)架构。图像模式预计将利用类似的 MoE 骨干网络,使其能够仅为视觉任务激活相关的“专家”子网络,从而进一步降低计算开销。
一个关键案例研究是 VLM 在企业文档处理中的应用。像 Adobe(通过 Acrobat AI 助手)和 Microsoft(通过 Office 中的 Copilot)这样的公司已经在集成视觉语言模型来解析 PDF、提取表格和生成摘要。DeepSeek 的较低成本可能使这项技术对无法承担 GPT-4V 高昂定价的中小企业变得可及。另一个新兴用例是面向视障用户的辅助技术,其中实时场景描述和文本转语音至关重要。DeepSeek 的灰度测试可能正是针对这些垂直领域,收集关于准确性和延迟的反馈。
下表比较了关键参与者的策略:
| 公司 | 模型 | 关键差异化因素 | 主要用例 | 定价模式 |
|---|---|---|---|---|
| OpenAI | GPT-4V | 最佳推理能力 | 通用、创意 | 按令牌付费(高) |
| Google | Gemini Pro Vision | 生态系统集成 | 搜索、YouTube、地图 | 按令牌付费(中) |
| Anthropic | Claude 3 Sonnet | 安全性、长上下文 | 企业、合规 | 按令牌付费(中) |
| DeepSeek | 图像模式(灰度测试) | 成本效率、开源贡献 | 文档处理、辅助技术 | 按令牌付费(低,估计) |