Claude打工记：AI编程代理实验揭示残酷真相，赚钱梦碎

在一项受控实验中，AINews让Claude在Algora平台上完成真实的付费编程悬赏任务——这是一个开发者通过解决编程挑战来赚钱的平台。实验目的是评估当前大型语言模型（LLM）能否作为自主创收的软件工程师运作。结果喜忧参半。对于定义清晰、复杂度低的任务——比如写一个正则表达式、封装一个API或执行一次简单的重构——Claude表现出色，成功率很高，往往一次就通过所有测试。然而，当面对需要深入理解现有代码库、模糊需求或系统级设计权衡的任务时，Claude的表现一落千丈。它生成的代码语法正确但语义错误，遗漏了边界情况，暴露出当前AI在真实软件工程中的根本局限。

技术深度解析

Algora上的实验揭示了当前基于LLM的编程代理精确的技术边界。核心而言，Claude（与GPT-4o和Gemini 1.5 Pro一样）是一个基于Transformer的模型，在海量公开代码上训练而成。其优势在于模式匹配和生成在统计上接近训练数据的代码。对于具有清晰、无歧义规范的任务——例如“编写一个使用正则表达式验证电子邮件地址的Python函数”——Claude表现异常出色，因为解决方案空间狭窄且在训练语料中充分体现。

然而，现实世界中的软件工程并非关于孤立的函数。它涉及导航庞大且往往文档不全的代码库、理解隐式约定，以及在性能、可读性和可维护性之间做出权衡。这正是Claude失败的地方。该模型对代码库没有持久记忆，只能依赖上下文窗口（目前Claude 3.5 Sonnet约为20万token）。当一个悬赏任务需要理解包含数十万行代码的多文件项目时，模型无法将整个架构纳入上下文。它生成的代码符合局部模式，但违反了全局不变量。

实验中的一个具体例子：一个悬赏任务是“在Django项目中添加一个返回聚合用户统计信息的新API端点”。Claude正确生成了视图函数和URL路由，但未能考虑项目自定义的身份验证中间件和缓存层。代码通过了单元测试，却因绕过了缓存逻辑而破坏了集成测试。人类开发者会扫描现有的views.py和middleware.py文件来理解模式；而Claude受限于上下文，没有这样做。

这指向一个根本性的架构局限：LLM缺乏因果世界模型。它们可以预测下一个token，但无法模拟所生成代码的执行过程。它们并不“理解”添加一个新端点可能会影响缓存策略。这就是为什么链式思维提示和工具使用（例如让模型运行测试并迭代）等技术虽有帮助，但无法解决核心问题。模型仍然在猜测，而非推理。

对于关注开源生态系统的读者，SWE-bench仓库（github.com/princeton-nlp/SWE-bench，15000+星标）是评估LLM在真实软件工程任务上表现的金标准。它包含来自热门Python仓库的2000多个issue。当前最先进的模型在SWE-bench上的得分约为30-40%，意味着它们能独立解决不到一半的问题。Claude 3.5 Sonnet得分约为38%，这与我们的Algora实验一致：在简单任务上表现尚可，在复杂任务上表现糟糕。

| 模型 | SWE-bench得分 | 上下文窗口 | 每百万token输入成本 |
|---|---|---|---|
| Claude 3.5 Sonnet | 38% | 200K | $3.00 |
| GPT-4o | 33% | 128K | $5.00 |
| Gemini 1.5 Pro | 31% | 1M | $3.50 |
| DeepSeek-Coder V2 | 29% | 128K | $0.28 |

数据要点： 表格显示，即使是最好的模型（Claude 3.5）在62%的真实软件工程任务上也会失败。成本与性能并不相关——DeepSeek-Coder V2便宜10倍，但性能仅差9%。这表明瓶颈不在于算力，而在于架构。行业需要能够推理代码执行过程、而不仅仅是生成代码的模型。

关键玩家与案例研究

Algora实验是更大趋势的一部分。多家公司和平台正在押注AI代理用于软件开发：

- GitHub Copilot（GitHub/Microsoft）：使用最广泛的AI编程助手，截至2024年拥有超过180万付费订阅用户。它在内联代码补全方面表现出色，但在多文件更改上力不从心。其代理模式（Copilot Chat）可以处理简单的重构，但无法应对复杂的悬赏任务。
- Cursor（Cursor.sh）：VS Code的一个分支，深度集成AI。它使用一个自定义代理，可以读取多个文件并在整个项目中进行编辑。早期用户报告称，在需要理解2-3个文件的任务上成功率较高，但在更大的代码库上仍然失败。
- Devin（Cognition Labs）：被炒作最多的“AI软件工程师”。在演示中，它可以自主修复bug并部署应用。然而，SWE-bench上的独立评估显示，Devin在真实世界问题上的得分仅为约13%，远低于Claude。该公司尚未发布公开API，使得独立验证变得困难。
- Algora本身：一个连接开发者与付费悬赏任务的平台。自2024年1月以来，其悬赏任务发布量增长了300%，其中许多任务明确为AI代理设计。Algora的CEO在一次私下谈话中表示，他们正在重新设计悬赏系统，加入“AI友好”标签和人工审核机制。

| 平台 | AI代理支持 | 平均任务成功率（AI） | 人工参与？ |
|---|---|---|---|
| Algora | 新兴 | 40%（简单）/ 10%（复杂） | 可选 |
| GitHub Copilot | 内嵌 |

时间归档

延伸阅读

常见问题

这次公司发布“Claude Fails to Earn Real Money: AI Coding Agent Experiment Reveals Hard Truths”主要讲了什么？

In a controlled experiment, AINews tasked Claude with completing real paid programming bounties on Algora, a platform where developers earn money by solving coding challenges. The…

从“Can Claude replace junior developers in 2025?”看，这家公司的这次发布为什么值得关注？

The experiment on Algora reveals the precise technical boundaries of current LLM-based coding agents. At the core, Claude (like GPT-4o and Gemini 1.5 Pro) is a transformer-based model trained on vast amounts of public co…

围绕“How to use Claude for freelancing on Algora”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。