Claude打工记:AI编程代理实验揭示残酷真相,赚钱梦碎

Hacker News May 2026
来源:Hacker News归档:May 2026
AINews让Claude在Algora悬赏平台上当起了付费自由开发者。结果令人警醒:AI能轻松搞定简单任务,却在复杂、依赖上下文的问题上彻底翻车,暴露了AI驱动软件工程领域炒作与现实之间的鸿沟。

在一项受控实验中,AINews让Claude在Algora平台上完成真实的付费编程悬赏任务——这是一个开发者通过解决编程挑战来赚钱的平台。实验目的是评估当前大型语言模型(LLM)能否作为自主创收的软件工程师运作。结果喜忧参半。对于定义清晰、复杂度低的任务——比如写一个正则表达式、封装一个API或执行一次简单的重构——Claude表现出色,成功率很高,往往一次就通过所有测试。然而,当面对需要深入理解现有代码库、模糊需求或系统级设计权衡的任务时,Claude的表现一落千丈。它生成的代码语法正确但语义错误,遗漏了边界情况,暴露出当前AI在真实软件工程中的根本局限。

技术深度解析

Algora上的实验揭示了当前基于LLM的编程代理精确的技术边界。核心而言,Claude(与GPT-4o和Gemini 1.5 Pro一样)是一个基于Transformer的模型,在海量公开代码上训练而成。其优势在于模式匹配和生成在统计上接近训练数据的代码。对于具有清晰、无歧义规范的任务——例如“编写一个使用正则表达式验证电子邮件地址的Python函数”——Claude表现异常出色,因为解决方案空间狭窄且在训练语料中充分体现。

然而,现实世界中的软件工程并非关于孤立的函数。它涉及导航庞大且往往文档不全的代码库、理解隐式约定,以及在性能、可读性和可维护性之间做出权衡。这正是Claude失败的地方。该模型对代码库没有持久记忆,只能依赖上下文窗口(目前Claude 3.5 Sonnet约为20万token)。当一个悬赏任务需要理解包含数十万行代码的多文件项目时,模型无法将整个架构纳入上下文。它生成的代码符合局部模式,但违反了全局不变量。

实验中的一个具体例子:一个悬赏任务是“在Django项目中添加一个返回聚合用户统计信息的新API端点”。Claude正确生成了视图函数和URL路由,但未能考虑项目自定义的身份验证中间件和缓存层。代码通过了单元测试,却因绕过了缓存逻辑而破坏了集成测试。人类开发者会扫描现有的views.py和middleware.py文件来理解模式;而Claude受限于上下文,没有这样做。

这指向一个根本性的架构局限:LLM缺乏因果世界模型。它们可以预测下一个token,但无法模拟所生成代码的执行过程。它们并不“理解”添加一个新端点可能会影响缓存策略。这就是为什么链式思维提示和工具使用(例如让模型运行测试并迭代)等技术虽有帮助,但无法解决核心问题。模型仍然在猜测,而非推理。

对于关注开源生态系统的读者,SWE-bench仓库(github.com/princeton-nlp/SWE-bench,15000+星标)是评估LLM在真实软件工程任务上表现的金标准。它包含来自热门Python仓库的2000多个issue。当前最先进的模型在SWE-bench上的得分约为30-40%,意味着它们能独立解决不到一半的问题。Claude 3.5 Sonnet得分约为38%,这与我们的Algora实验一致:在简单任务上表现尚可,在复杂任务上表现糟糕。

| 模型 | SWE-bench得分 | 上下文窗口 | 每百万token输入成本 |
|---|---|---|---|
| Claude 3.5 Sonnet | 38% | 200K | $3.00 |
| GPT-4o | 33% | 128K | $5.00 |
| Gemini 1.5 Pro | 31% | 1M | $3.50 |
| DeepSeek-Coder V2 | 29% | 128K | $0.28 |

数据要点: 表格显示,即使是最好的模型(Claude 3.5)在62%的真实软件工程任务上也会失败。成本与性能并不相关——DeepSeek-Coder V2便宜10倍,但性能仅差9%。这表明瓶颈不在于算力,而在于架构。行业需要能够推理代码执行过程、而不仅仅是生成代码的模型。

关键玩家与案例研究

Algora实验是更大趋势的一部分。多家公司和平台正在押注AI代理用于软件开发:

- GitHub Copilot(GitHub/Microsoft):使用最广泛的AI编程助手,截至2024年拥有超过180万付费订阅用户。它在内联代码补全方面表现出色,但在多文件更改上力不从心。其代理模式(Copilot Chat)可以处理简单的重构,但无法应对复杂的悬赏任务。
- Cursor(Cursor.sh):VS Code的一个分支,深度集成AI。它使用一个自定义代理,可以读取多个文件并在整个项目中进行编辑。早期用户报告称,在需要理解2-3个文件的任务上成功率较高,但在更大的代码库上仍然失败。
- Devin(Cognition Labs):被炒作最多的“AI软件工程师”。在演示中,它可以自主修复bug并部署应用。然而,SWE-bench上的独立评估显示,Devin在真实世界问题上的得分仅为约13%,远低于Claude。该公司尚未发布公开API,使得独立验证变得困难。
- Algora本身:一个连接开发者与付费悬赏任务的平台。自2024年1月以来,其悬赏任务发布量增长了300%,其中许多任务明确为AI代理设计。Algora的CEO在一次私下谈话中表示,他们正在重新设计悬赏系统,加入“AI友好”标签和人工审核机制。

| 平台 | AI代理支持 | 平均任务成功率(AI) | 人工参与? |
|---|---|---|---|
| Algora | 新兴 | 40%(简单)/ 10%(复杂) | 可选 |
| GitHub Copilot | 内嵌 |

更多来自 Hacker News

Claude记忆可视化器:一款macOS应用如何撬开AI黑箱一款全新的macOS原生应用横空出世,它能够直接解析并展示Anthropic旗下AI编程代理Claude Code生成的记忆文件。该工具为开发者提供了前所未有的视角,让他们得以看清大语言模型在跨会话的长时间编程过程中,如何存储和组织上下文数AI首次发现M5芯片漏洞:Claude Mythos攻破苹果内存堡垒在一项对人工智能和硬件安全都具有里程碑意义的事件中,使用Anthropic Claude Mythos AI的研究人员发现了苹果M5系统级芯片中的首个权限提升漏洞。该漏洞利用内存控制器中的竞争条件,成功绕过了苹果新引入的内存完整性强制(MIAI完美面容正在重塑整形外科——但并非向好一股新浪潮正席卷整形美容行业:患者带着AI生成的自拍照——通常使用Midjourney、Stable Diffusion或FaceApp等工具制作——走进诊室,要求医生复制那些高度对称、毫无瑕疵、青春永驻的面容。这些图像不仅仅是理想化的追求查看来源专题页Hacker News 已收录 3511 篇文章

时间归档

May 20261781 篇已发布文章

延伸阅读

One-Shot Tower Defense: How AI Game Generation Is Redefining DevelopmentA developer's 33-day experiment culminated in a single-prompt tower defense game, demonstrating that AI can now autonomo马耳他全国普及ChatGPT Plus:全球首个AI国家化实验开启新纪元马耳他政府与OpenAI签署历史性协议,为每位公民提供ChatGPT Plus订阅,成为全球首个将AI作为全民公共事业的国家。这一大胆实验可能重新定义各国大规模部署人工智能的方式。八年磨一剑:PyTorch曲率库重写或将重塑深度学习优化格局一位独立开源开发者耗时八年,彻底重写了PyTorch曲率优化库,新版本大幅降低内存占用并提升计算速度。此次更新将二阶优化——这一长期停留在理论层面的承诺——推向实际部署,为成本高昂的大模型训练提供了潜在的生命线。SANA-WM: How a 2.6B Parameter Open-Source Model Breaks the 1-Minute Video BarrierA new open-source world model, SANA-WM, with just 2.6 billion parameters, generates one-minute-long 720p videos from tex

常见问题

这次公司发布“Claude Fails to Earn Real Money: AI Coding Agent Experiment Reveals Hard Truths”主要讲了什么?

In a controlled experiment, AINews tasked Claude with completing real paid programming bounties on Algora, a platform where developers earn money by solving coding challenges. The…

从“Can Claude replace junior developers in 2025?”看,这家公司的这次发布为什么值得关注?

The experiment on Algora reveals the precise technical boundaries of current LLM-based coding agents. At the core, Claude (like GPT-4o and Gemini 1.5 Pro) is a transformer-based model trained on vast amounts of public co…

围绕“How to use Claude for freelancing on Algora”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。