DeepSeek组建“Harness”团队：中国AI从模型研究转向产品战，直指Claude Code

5月19日，DeepSeek高级研究员陈德利在小红书上发布招聘公告，确认成立新的“Harness”团队，任务是打造一款直接对标Anthropic Claude Code的代码代理工具。此举并非仅仅推出另一款编程助手，而是代表着一家长期以基础模型研究实力著称的公司，正在发生根本性的战略转变。DeepSeek正走出实验室，争夺开发者赖以生存的桌面生产力入口——终端界面。Harness团队目前正在北京海淀区招聘一名产品经理和一名研究工程师，据称只招募顶尖人才——不设“超能力”，没有例外——这标志着产品优先的文化。这一转向承认，下一场AI战役的胜负手，将取决于谁能真正占领开发者的桌面。

技术深度解析

Harness团队的目标是构建一个在终端层面运行、深度集成开发者工作流的代码代理。与传统的IDE插件或基于聊天的助手不同，像Claude Code或设想中的DeepSeek Harness这样的代码代理是一个自主代理，能够跨项目读取、编写和执行代码，管理git操作，运行测试，甚至进行部署。这需要一种与简单聊天补全模型根本不同的架构。

核心架构组件：
1. 代理循环（Agentic Loop）： 系统必须维护一个持久化的上下文窗口，跟踪整个项目状态，包括文件结构、依赖图和最近的操作。这不是无状态的API调用；而是一个有状态的代理，能够规划和执行多步骤任务。
2. 工具使用（函数调用）： 代理需要一套强大的工具：文件读写、shell命令执行、git操作、包管理器交互和网络搜索。每个工具都必须沙箱化，以防止破坏性操作。
3. 沙箱化执行环境： 运行LLM生成的任意代码存在风险。DeepSeek将需要一个安全的、容器化的环境（可能使用Docker或自定义沙箱）来安全执行生成的代码，这一挑战曾让许多竞争对手栽跟头。
4. 反馈循环： 代理必须解析编译器错误、测试失败和运行时日志以进行自我修正。这需要一个复杂的错误处理管道，将信息反馈回模型的推理过程。

开源参考项目：
- OpenHands（原名OpenDevin）： 一个GitHub仓库（目前约45k星标），提供了构建代码代理的开源框架。它实现了沙箱环境和工具使用架构。DeepSeek可以利用或借鉴此项目。
- SWE-agent： 另一个热门仓库（约15k星标），将语言模型转化为软件工程代理，能够修复真实GitHub仓库中的bug。它使用自定义的代理-计算机接口（ACI）。
- Cline（原名Claude Dev）： 一个VS Code扩展，提供代理式编码体验，安装量超过100万。它证明了终端级AI助手的需求。

基准测试挑战：
代码代理的关键基准是SWE-bench，它测试代理解决真实GitHub问题的能力。Claude Code目前在SWE-bench Verified子集上以49%的解决率领先。DeepSeek的模型DeepSeek-V3在同一基准上得分约为42%。Harness团队的首要任务将是通过更好的代理编排（而不仅仅是模型改进）来缩小这一差距。

| 模型/代理 | SWE-bench Verified（解决率） | 平均每次任务成本 | 延迟（首次响应） |
|---|---|---|---|
| Claude Code (Claude 3.5 Sonnet) | 49% | $0.80 | 2.1s |
| DeepSeek-V3 (独立) | 42% | $0.35 | 1.8s |
| GPT-4o (独立) | 38% | $1.20 | 1.5s |
| OpenHands (with GPT-4o) | 33% | $1.50 | 3.0s |

数据要点： DeepSeek的模型在成本和速度上已经具有竞争力，但代理层面的性能差距（7个百分点）是显著的。Harness团队的工程能力——而非模型训练——将决定他们能否弥合这一差距。

关键玩家与案例分析

代码代理的竞争格局正在升温，主要有三大玩家：

1. Anthropic (Claude Code)： 黄金标准。Claude Code是一个终端原生代理，能够自主规划、编码、测试和部署。它基于Claude 3.5 Sonnet构建，并与Anthropic的安全栈深度集成。Replit和Sourcegraph等公司已将其用于内部工作流。

2. GitHub Copilot (含Agent Mode)： 微软的产品正从简单的自动补全演变为完整的代理模式，但仍局限于IDE（VS Code），自主性不如Claude Code。它受益于与GitHub的深度集成，但缺乏终端优先的方法。

3. Cursor (含Composer)： Cursor是VS Code的一个分支，内置了代理功能。它在独立开发者和初创公司中很受欢迎，但生态系统比GitHub Copilot小。

DeepSeek的定位：
DeepSeek的优势在于其模型的成本效益。DeepSeek-V3每token的成本大约是Claude 3.5 Sonnet的1/3。如果Harness团队能够构建一个能力与Claude Code相当但成本更低的代理，它可能会冲击市场。然而，成本并非唯一因素——开发者信任、可靠性和生态系统集成更为重要。

| 产品 | 平台 | 定价（每月） | 关键差异化优势 |
|---|---|---|---|
| Claude Code | 终端 (CLI) | $20 (Pro) + 使用费 | 最自主，最佳代理推理能力 |
| GitHub Copilot | IDE (VS Code, JetBrains) | $10 (个人版) | 深度GitHub集成，庞大用户基础 |
| Cursor | 分支IDE | $20 (Pro) | 内置代理，快速迭代 |
| DeepSeek Harness (预计) | 终端 (CLI) | 可能免费层 + 使用费 | 最低成本，开源模型 |

数据要点： DeepSeek很可能采取低价策略，但真正的考验在于能否在可靠性和开发者体验上与Claude Code竞争。

时间归档

延伸阅读

常见问题

这次公司发布“DeepSeek Harness Team: Chinese AI's Product Pivot to Challenge Claude Code”主要讲了什么？

On May 19, DeepSeek senior researcher Chen Deli posted a recruitment notice on Xiaohongshu confirming the formation of a new 'Harness' team, tasked with building a code agent tool…

从“DeepSeek Harness team recruitment requirements”看，这家公司的这次发布为什么值得关注？

The Harness team's mission is to build a code agent that operates at the terminal level, integrating deeply with developer workflows. Unlike traditional IDE plugins or chat-based assistants, a code agent like Claude Code…

围绕“DeepSeek vs Claude Code benchmark comparison”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。