Anthropic内部90%代码由AI生成：软件递归自我进化时代已至

在一份坦诚的内部披露中，Anthropic高管透露公司90%的软件代码现已由AI模型生成，主要来自其自家的Claude系列。这并非简单的生产力提升故事，而是对创造者与工具关系的根本性重新定义。数据证实，大语言模型已达到足以处理复杂生产级系统架构的成熟度，而不仅仅是孤立的代码片段。其影响是双重的：一方面极大降低了软件创建的门槛，支持快速原型设计与迭代；另一方面将人类工程师的角色从编写者重塑为审查者与架构师。更关键的是，这形成了一个递归反馈循环——基于AI生成代码训练的AI模型，其输出质量将不断提升，从而加速自身进化。

技术深度解析

Anthropic的90%数字并非营销吹嘘，而是深度技术集成的体现。其核心机制依赖于多阶段代码生成流水线。首先，向模型（通常是Claude 3.5 Sonnet或Opus）提供高层架构规范，模型生成系统骨架，包括模块接口、数据流图和API契约。其次，模型迭代填充每个模块，生成函数、类和单元测试。第三，一个独立的验证模型（通常是更小、更快的模型）在人工审查前执行静态分析、代码检查以及基本测试覆盖率检查。

该流水线利用了多项关键技术：
- 思维链（Chain-of-Thought, CoT）提示：对于复杂逻辑，模型被提示在编写代码前逐步推理，减少算法部分中的幻觉。
- 检索增强生成（Retrieval-Augmented Generation, RAG）：模型可访问Anthropic内部代码库、风格指南和依赖文档，确保生成的代码遵循现有模式并避免破坏性变更。
- 自洽性采样（Self-Consistency Sampling）：对于关键函数，模型生成多个候选实现，并选择内部一致性得分最高的一个，从而降低缺陷率。

一个反映此方法的知名开源仓库是SWE-agent（GitHub: princeton-nlp/SWE-agent，15k+星标），它利用LLM通过导航代码库、编辑文件和运行测试来自动修复GitHub问题。另一个是Aider（GitHub: paul-gauthier/aider，25k+星标），一个与LLM配对进行结对编程的命令行工具。这些项目证明了Anthropic流水线在较小规模上的可行性。

性能基准测试

为衡量其成熟度，请参考以下代码生成模型的基准数据：

| 模型 | HumanEval Pass@1 | SWE-bench Lite (已解决) | MBPP Pass@1 | 平均延迟（每函数） |
|---|---|---|---|---|
| Claude 3.5 Sonnet | 92.0% | 49.2% | 86.8% | 1.2s |
| GPT-4o | 90.2% | 47.8% | 85.5% | 1.5s |
| Gemini 1.5 Pro | 84.1% | 42.3% | 81.2% | 1.8s |
| DeepSeek-Coder V2 | 91.5% | 48.6% | 87.1% | 0.9s |

数据要点： Claude 3.5 Sonnet在HumanEval和SWE-bench Lite上领先，表明其从零编写正确代码以及修复真实仓库中现有缺陷的能力更优。DeepSeek-Coder V2的延迟优势对实时编码助手而言值得关注，但顶级模型之间的整体差距较小，表明该领域在原始代码生成准确性上正趋于商品化。

关键参与者与案例研究

Anthropic并非这一转变中的孤例，但它是内部采用程度上发声最响亮的。其他关键参与者包括：

- Google (Gemini)：Google已将Gemini集成到其内部开发工具中（例如用于Android和Chrome），但未披露具体百分比。内部报告显示，某些团队中AI生成的新代码占比达25-40%。
- OpenAI (GPT-4o)：OpenAI使用自家模型进行内部工具开发，包括自动化测试生成和文档编写，但未声称达到90%这样的高比例。
- GitHub Copilot (Microsoft)：虽非AI公司本身，但Copilot为数百万开发者提供支持。Microsoft内部的采用率很高，但同样未公开具体百分比。

AI代码生成方法对比

| 公司 | 使用模型 | 声称的内部采用率 | 主要用例 | 关键差异化优势 |
|---|---|---|---|---|
| Anthropic | Claude 3.5 Sonnet/Opus | 全部代码的90% | 全栈、生产系统 | 深度内部RAG + 多阶段验证 |
| Google | Gemini 1.5 Pro | 25-40%（估计） | Android、Chrome、云服务 | 与内部单体仓库集成 |
| OpenAI | GPT-4o | 未披露 | 工具、测试、文档 | 基于内部代码库微调 |
| Meta | Code Llama 70B | 未披露 | 研究原型 | 开源、自定义微调 |

数据要点： Anthropic的90%数字是一个异常值，可能表明其采取了更激进的集成策略，或对“代码”的定义更窄（例如排除遗留系统或基础设施代码）。随着最佳实践的扩散，Anthropic与其他公司之间的差距可能会缩小。

知名研究者

- Dario Amodei（Anthropic CEO）：公开表示AI生成的代码在质量上已“与人类编写的代码无法区分”，当前瓶颈在于人工审查速度。
- Andrej Karpathy（前OpenAI、Tesla）：倡导“软件2.0”，即用神经网络取代传统编程。他关于该主题的博客文章具有奠基性。
- Chris Lattner（Swift、LLVM创始人）：现任职于Modular AI，正在构建Mojo——一种专为AI原生开发设计的语言，认为当前语言并未针对AI生成进行优化。

行业影响与市场动态

向AI生成代码的转变将在三个阶段重塑软件行业：

1. 第一阶段（2023-2024）：AI作为辅助工具，主要处理样板代码、单元测试和简单函数。人类开发者仍主导架构设计。
2. 第二阶段（2025-2027）：AI承担更多架构职责，人类转向高层设计、审查和异常处理。像Anthropic这样的公司成为先行者。
3. 第三阶段（2028+）：递归自我进化循环加速，AI系统能够自主改进自身代码，人类角色演变为目标设定者和伦理监督者。

市场数据

- 根据GitHub的2023年Octoverse报告，Copilot用户中46%的新代码由AI生成，但生产级采用率因行业而异。
- Gartner预测，到2027年，60%的企业软件将包含AI生成的组件。
- 代码生成AI市场预计将从2023年的15亿美元增长到2028年的270亿美元（CAGR 78%）。

风险与争议

- 代码质量与安全：AI生成的代码可能引入难以检测的微妙漏洞。Anthropic的多阶段验证旨在缓解此问题，但并非万无一失。
- 知识产权问题：训练数据中包含受版权保护的代码引发了法律挑战。GitHub Copilot正面临集体诉讼，结果可能影响整个行业。
- 开发者技能退化：过度依赖AI可能导致初级开发者缺乏基础编程技能。Anthropic强调其工程师仍需要深入理解系统，但行业范围内的风险依然存在。
- 递归偏差放大：如果AI生成的代码包含偏差或错误，后续迭代可能会放大这些问题，形成反馈循环。

结论

Anthropic的90%内部AI代码生成率是一个分水岭时刻。它验证了大语言模型已准备好承担生产级软件开发的核心角色，并开启了递归自我进化的可能性。然而，这一转变伴随着重大风险，包括安全、知识产权和技能退化。未来几年，行业将需要建立新的最佳实践、监管框架和伦理指南，以确保AI生成的代码在增强而非削弱软件生态系统。

时间归档

延伸阅读

常见问题

这次公司发布“Anthropic's 90% AI-Generated Code Signals a Recursive Self-Evolution Era for Software”主要讲了什么？

In a candid internal disclosure, Anthropic executives revealed that 90% of the company's software code is now generated by AI models, primarily their own Claude family. This is not…

从“how does Anthropic ensure AI generated code is secure”看，这家公司的这次发布为什么值得关注？

The 90% figure from Anthropic is not a marketing boast but a reflection of deep technical integration. The core mechanism relies on a multi-stage code generation pipeline. First, a high-level architectural specification…

围绕“Anthropic 90% AI code vs Google Gemini internal adoption”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。