DeepSeek组建“Harness”团队:中国AI从模型研究转向产品战,直指Claude Code

May 2026
DeepSeekClaude Code归档:May 2026
DeepSeek正在低调组建Harness团队,开发一款直接对标Anthropic Claude Code的代码代理工具。这标志着其从基础模型研究向产品驱动战略的关键转折,意图将开发者桌面作为AI下一个主战场。

5月19日,DeepSeek高级研究员陈德利在小红书上发布招聘公告,确认成立新的“Harness”团队,任务是打造一款直接对标Anthropic Claude Code的代码代理工具。此举并非仅仅推出另一款编程助手,而是代表着一家长期以基础模型研究实力著称的公司,正在发生根本性的战略转变。DeepSeek正走出实验室,争夺开发者赖以生存的桌面生产力入口——终端界面。Harness团队目前正在北京海淀区招聘一名产品经理和一名研究工程师,据称只招募顶尖人才——不设“超能力”,没有例外——这标志着产品优先的文化。这一转向承认,下一场AI战役的胜负手,将取决于谁能真正占领开发者的桌面。

技术深度解析

Harness团队的目标是构建一个在终端层面运行、深度集成开发者工作流的代码代理。与传统的IDE插件或基于聊天的助手不同,像Claude Code或设想中的DeepSeek Harness这样的代码代理是一个自主代理,能够跨项目读取、编写和执行代码,管理git操作,运行测试,甚至进行部署。这需要一种与简单聊天补全模型根本不同的架构。

核心架构组件:
1. 代理循环(Agentic Loop): 系统必须维护一个持久化的上下文窗口,跟踪整个项目状态,包括文件结构、依赖图和最近的操作。这不是无状态的API调用;而是一个有状态的代理,能够规划和执行多步骤任务。
2. 工具使用(函数调用): 代理需要一套强大的工具:文件读写、shell命令执行、git操作、包管理器交互和网络搜索。每个工具都必须沙箱化,以防止破坏性操作。
3. 沙箱化执行环境: 运行LLM生成的任意代码存在风险。DeepSeek将需要一个安全的、容器化的环境(可能使用Docker或自定义沙箱)来安全执行生成的代码,这一挑战曾让许多竞争对手栽跟头。
4. 反馈循环: 代理必须解析编译器错误、测试失败和运行时日志以进行自我修正。这需要一个复杂的错误处理管道,将信息反馈回模型的推理过程。

开源参考项目:
- OpenHands(原名OpenDevin): 一个GitHub仓库(目前约45k星标),提供了构建代码代理的开源框架。它实现了沙箱环境和工具使用架构。DeepSeek可以利用或借鉴此项目。
- SWE-agent: 另一个热门仓库(约15k星标),将语言模型转化为软件工程代理,能够修复真实GitHub仓库中的bug。它使用自定义的代理-计算机接口(ACI)。
- Cline(原名Claude Dev): 一个VS Code扩展,提供代理式编码体验,安装量超过100万。它证明了终端级AI助手的需求。

基准测试挑战:
代码代理的关键基准是SWE-bench,它测试代理解决真实GitHub问题的能力。Claude Code目前在SWE-bench Verified子集上以49%的解决率领先。DeepSeek的模型DeepSeek-V3在同一基准上得分约为42%。Harness团队的首要任务将是通过更好的代理编排(而不仅仅是模型改进)来缩小这一差距。

| 模型/代理 | SWE-bench Verified(解决率) | 平均每次任务成本 | 延迟(首次响应) |
|---|---|---|---|
| Claude Code (Claude 3.5 Sonnet) | 49% | $0.80 | 2.1s |
| DeepSeek-V3 (独立) | 42% | $0.35 | 1.8s |
| GPT-4o (独立) | 38% | $1.20 | 1.5s |
| OpenHands (with GPT-4o) | 33% | $1.50 | 3.0s |

数据要点: DeepSeek的模型在成本和速度上已经具有竞争力,但代理层面的性能差距(7个百分点)是显著的。Harness团队的工程能力——而非模型训练——将决定他们能否弥合这一差距。

关键玩家与案例分析

代码代理的竞争格局正在升温,主要有三大玩家:

1. Anthropic (Claude Code): 黄金标准。Claude Code是一个终端原生代理,能够自主规划、编码、测试和部署。它基于Claude 3.5 Sonnet构建,并与Anthropic的安全栈深度集成。Replit和Sourcegraph等公司已将其用于内部工作流。

2. GitHub Copilot (含Agent Mode): 微软的产品正从简单的自动补全演变为完整的代理模式,但仍局限于IDE(VS Code),自主性不如Claude Code。它受益于与GitHub的深度集成,但缺乏终端优先的方法。

3. Cursor (含Composer): Cursor是VS Code的一个分支,内置了代理功能。它在独立开发者和初创公司中很受欢迎,但生态系统比GitHub Copilot小。

DeepSeek的定位:
DeepSeek的优势在于其模型的成本效益。DeepSeek-V3每token的成本大约是Claude 3.5 Sonnet的1/3。如果Harness团队能够构建一个能力与Claude Code相当但成本更低的代理,它可能会冲击市场。然而,成本并非唯一因素——开发者信任、可靠性和生态系统集成更为重要。

| 产品 | 平台 | 定价(每月) | 关键差异化优势 |
|---|---|---|---|
| Claude Code | 终端 (CLI) | $20 (Pro) + 使用费 | 最自主,最佳代理推理能力 |
| GitHub Copilot | IDE (VS Code, JetBrains) | $10 (个人版) | 深度GitHub集成,庞大用户基础 |
| Cursor | 分支IDE | $20 (Pro) | 内置代理,快速迭代 |
| DeepSeek Harness (预计) | 终端 (CLI) | 可能免费层 + 使用费 | 最低成本,开源模型 |

数据要点: DeepSeek很可能采取低价策略,但真正的考验在于能否在可靠性和开发者体验上与Claude Code竞争。

相关专题

DeepSeek46 篇相关文章Claude Code179 篇相关文章

时间归档

May 20262357 篇已发布文章

延伸阅读

AnySearch登顶开发者排行榜:AI智能体翘首以盼的搜索引擎终于来了一周之内,AnySearch火箭般蹿升至Skills.sh开发者排行榜榜首,在Reddit和X上引爆了一场关于AI智能体究竟需要什么样的搜索功能的激烈辩论。这款产品并非又一款搜索引擎,而是一个旨在用实时、结构化数据为大型语言模型提供支撑的中Anthropic 2000亿美元谷歌云交易:天才战略还是致命依赖?Anthropic与谷歌云签署五年期2000亿美元合同,锁定5吉瓦下一代TPU算力。这笔豪赌重塑AI硬件格局,却引发关于供应商锁定与战略独立的尖锐质疑。MiroMind:陈天桥与戴继军携3亿美元叫板DeepSeek,AGI赛道迎来“不差钱”的终极玩家一位拥有7万引用量的计算机视觉泰斗,联手一位不在乎季度财报的百亿富豪。MiroMind绝非又一家AI初创公司——它是一场豪赌:在通用人工智能时代,金钱与执念依然能够移山填海。工程智能:AI必须走出语言游戏,学会建造桥梁AI能写论文、生成代码,但它能确保桥梁安全或电网稳定吗?一位顶尖学者指出,AI的下一个前沿不是语言流畅度,而是工程智能——在真实系统中运作的能力,在那里幻觉不可接受,标准答案也不存在。

常见问题

这次公司发布“DeepSeek Harness Team: Chinese AI's Product Pivot to Challenge Claude Code”主要讲了什么?

On May 19, DeepSeek senior researcher Chen Deli posted a recruitment notice on Xiaohongshu confirming the formation of a new 'Harness' team, tasked with building a code agent tool…

从“DeepSeek Harness team recruitment requirements”看,这家公司的这次发布为什么值得关注?

The Harness team's mission is to build a code agent that operates at the terminal level, integrating deeply with developer workflows. Unlike traditional IDE plugins or chat-based assistants, a code agent like Claude Code…

围绕“DeepSeek vs Claude Code benchmark comparison”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。