DeepSeek 图像模式：多模态 AI 竞赛迎来新玩家

以高性能大语言模型闻名的中国 AI 实验室 DeepSeek，已启动一项突破性的“图像识别模式”灰度测试。该功能使模型能够处理并理解图像，包括文档、图表和真实世界物体，标志着其从纯文本架构向多模态架构的关键转型。此举不仅是功能更新，更是能力的根本性转变，解锁了从自动化文档分析到辅助技术的多种应用场景。灰度测试策略——一种受控的、有限范围的发布——体现了谨慎的产品理念，使团队能够在更广泛发布前优化准确性、延迟和安全性。这一发展加剧了全球多模态 AI 竞赛，其中 OpenAI 的 GPT-4V、Google 的 Gemini 等巨头已占据领先地位。

技术深度解析

DeepSeek 的新图像模式代表了显著的架构演进。构建视觉语言模型（VLM）的核心挑战在于将视觉编码器——通常是 Vision Transformer（ViT）或卷积神经网络（CNN）变体——与大语言模型（LLM）对齐。DeepSeek 的方法可能涉及一个预训练的视觉编码器，用于从图像中提取特征嵌入，然后通过一个可学习的投影层或 Q-Former 风格的连接器将这些嵌入投影到 LLM 的嵌入空间中。这使得 LLM 能够通过将图像特征视为一系列令牌（tokens）来“看见”，并与文本令牌一起进行注意力计算。

一个关键技术细节是训练流程。模型首先在海量图像-文本对数据集（例如 LAION-5B、COYO-700M）上进行对比学习预训练，然后在指令遵循数据上进行微调，以完成视觉问答（VQA）、光学字符识别（OCR）和场景理解等任务。DeepSeek 的优势可能在于其高效的训练方法，历史上这使其能够以更少的计算资源实现具有竞争力的性能。灰度测试可能包括针对特定任务（如文档解析（PDF、表格）和物体识别）的 A/B 测试，在这些任务中模型必须展示高准确率和低幻觉率。

一个值得关注的开源仓库是 LLaVA 家族（GitHub: haotian-liu/LLaVA，20k+ 星标），它开创了一种简单而有效的视觉指令微调方法。另一个是 Qwen-VL（GitHub: QwenLM/Qwen-VL，10k+ 星标），它提供了强大的多语言能力。DeepSeek 的模型可能采用类似的架构模式，但带有其自身的专有优化。下表比较了关键 VLM 在标准基准测试上的表现：

| 模型 | 参数（估计） | VQA v2 准确率 | MMMU（多模态） | OCRBench | 成本/百万令牌（图像输入） |
|---|---|---|---|---|---|
| GPT-4V (OpenAI) | 未知 | 77.2% | 56.8% | 68.5% | $10.00 |
| Gemini Pro Vision (Google) | 未知 | 74.6% | 52.1% | 62.3% | $7.50 |
| Claude 3 Sonnet (Anthropic) | 未知 | 73.1% | 50.4% | 60.1% | $3.00 |
| DeepSeek 图像模式（估计） | ~70B（文本）+ ViT-L | 72.0%（目标） | 48.5%（目标） | 58.0%（目标） | $1.50（估计） |

数据要点： DeepSeek 的估计性能目标在标准基准测试上略低于顶级模型，但其每令牌的预计成本显著更低——比 GPT-4V 低 5-7 倍。这表明其策略是故意提供一种“足够好”的多模态体验，并以颠覆性的价格定位，瞄准对成本敏感的企业应用，如文档处理和数据分析。

关键参与者与案例研究

多模态 AI 领域已经挤满了主要参与者，各有不同的策略。OpenAI 的 GPT-4V 仍然是通用视觉语言任务的金标准，在复杂推理和创意任务中表现出色。Google 的 Gemini 系列（Ultra、Pro、Nano）与 Google 生态系统深度集成，原生支持 YouTube 视频、Google 地图和搜索。Anthropic 的 Claude 3 模型强调安全性和长上下文理解，其视觉能力具有竞争力，但在细粒度任务上略逊于 GPT-4V。

DeepSeek 的入场因其定位而引人注目。与这些巨头不同，DeepSeek 凭借开源贡献和成本效率建立了声誉。其之前的纯文本模型 DeepSeek-V2 在推理成本仅为 GPT-4 一小部分的情况下实现了与之相当的性能，这主要归功于其混合专家（MoE）架构。图像模式预计将利用类似的 MoE 骨干网络，使其能够仅为视觉任务激活相关的“专家”子网络，从而进一步降低计算开销。

一个关键案例研究是 VLM 在企业文档处理中的应用。像 Adobe（通过 Acrobat AI 助手）和 Microsoft（通过 Office 中的 Copilot）这样的公司已经在集成视觉语言模型来解析 PDF、提取表格和生成摘要。DeepSeek 的较低成本可能使这项技术对无法承担 GPT-4V 高昂定价的中小企业变得可及。另一个新兴用例是面向视障用户的辅助技术，其中实时场景描述和文本转语音至关重要。DeepSeek 的灰度测试可能正是针对这些垂直领域，收集关于准确性和延迟的反馈。

下表比较了关键参与者的策略：

| 公司 | 模型 | 关键差异化因素 | 主要用例 | 定价模式 |
|---|---|---|---|---|
| OpenAI | GPT-4V | 最佳推理能力 | 通用、创意 | 按令牌付费（高） |
| Google | Gemini Pro Vision | 生态系统集成 | 搜索、YouTube、地图 | 按令牌付费（中） |
| Anthropic | Claude 3 Sonnet | 安全性、长上下文 | 企业、合规 | 按令牌付费（中） |
| DeepSeek | 图像模式（灰度测试） | 成本效率、开源贡献 | 文档处理、辅助技术 | 按令牌付费（低，估计） |

时间归档

延伸阅读

常见问题

这次模型发布“DeepSeek Image Mode: The Multimodal AI Race Just Got a New Contender”的核心内容是什么？

DeepSeek, the Chinese AI lab known for its competitive large language models, has initiated a gray test of a groundbreaking 'image recognition mode.' This feature allows the model…

从“DeepSeek image mode vs GPT-4V benchmark comparison”看，这个模型发布为什么重要？

DeepSeek's new image mode represents a significant architectural evolution. The core challenge in building a vision-language model (VLM) is aligning a visual encoder—typically a Vision Transformer (ViT) or a convolutiona…

围绕“DeepSeek gray test image recognition accuracy”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。