不可理解的代码危机:为什么AI生成的软件正在变成一座数字巴别塔

Hacker News May 2026
来源:Hacker News归档:May 2026
AI生成的代码正以前所未有的速度涌入生产环境,但一个令人不安的类比正在浮现:就像进化算法设计的天线,性能超越人类设计却无法被理解,LLM产出的代码正在创造一个“后未来”——软件能运行,却无人能真正维护或审计。AINews深入调查这一系统性风险,以及行业必须采取的行动。

软件工程界正在悄然经历一场少有人愿意正视的变革。GPT-4、Claude等大型语言模型(LLM),以及GitHub Copilot等专用代码生成器,已成为不可或缺的工具,每天产出数百万行生产代码。但越来越多的证据表明,这些代码虽然功能正确,却正变得越来越不透明,连本应拥有它们的开发者都难以理解。这与进化天线设计的类比惊人相似:1990年代,NASA使用进化算法为航天器设计了一款天线。最终的结构怪异、扭曲,与人类工程师的任何构想都截然不同——但它却超越了所有传统设计。问题在于:没有人能解释它为什么能工作。

技术深度解析

问题的核心在于LLM生成代码的方式。与传统编译器或人类开发者不同,LLM并非通过逻辑推理链构建代码。它们基于从数十亿行现有代码中学习到的统计模式来预测token。这个过程本质上是黑箱的:模型并不“知道”自己为什么选择了某个特定算法、变量名或控制流。它只是根据训练数据,生成最有可能的下一个token。

这导致了几个具体的技术病态:

1. 非顺序逻辑:LLM经常生成在不同模式间跳跃的代码,缺乏清晰的线性流程。一个函数可能以标准模式开头,然后插入一个不寻常的边缘情况处理,再循环回另一个模式。阅读代码的人类很难重构“意图”,因为根本不存在意图——只有统计输出。

2. 死代码与冗余操作:研究表明,LLM生成的代码经常包含未使用的变量、冗余检查和相互抵消的操作。这些本身并非bug——代码仍然能通过测试——但它们增加了认知负荷,并埋下了维护隐患。2024年一项对Copilot生成的Python代码的分析发现,12%到18%的代码行在功能上是冗余的。

3. 不一致的命名与抽象:LLM缺乏对代码库一致的思维模型。它们可能在同一个函数的不同部分使用不同的命名约定,或者混合不同抽象层级(例如,将高级API调用与低级位操作混在一起)。这使得代码更难重构或扩展。

4. 缺乏设计依据:最关键的问题是缺乏溯源。当人类编写代码时,他们通常会留下注释、提交信息,或者至少有一个关于为何做出某些选择的思维模型。LLM不会产生这些。代码作为一个成品出现,没有任何决策过程的痕迹。这与进化天线直接对应:最终设计是最优的,但通往它的路径却丢失了。

一个具体例子来自最近的GitHub仓库`code-inspector`(8.2k星标,正在积极维护),该工具分析LLM生成的代码中的“异常模式”。该工具标记出,34%的LLM生成函数包含至少一个“非人类”模式——一种人类开发者永远不会写出、但能通过所有单元测试的代码结构。这些模式通常涉及列表推导式、嵌套三元运算符或冗余类型检查的不寻常组合。

数据表:LLM代码质量指标

| 指标 | 人类编写代码 | LLM生成代码 (GPT-4) | LLM生成代码 (Claude 3.5) |
|---|---|---|---|
| 冗余行数 (%) | 3-5% | 12-18% | 10-15% |
| 非人类模式 (%) | 0-2% | 28-34% | 22-30% |
| 注释覆盖率 (%) | 15-25% | 2-5% | 3-6% |
| 测试通过率 (单元) | 95-99% | 88-94% | 90-96% |
| 可维护性指数 (1-100) | 75-85 | 55-65 | 60-70 |

*数据要点:虽然LLM生成的代码测试通过率很高,但其可维护性显著较低,而“非人类”模式的普遍存在为未来的工程工作埋下了隐性成本。代码今天能运行,但明天就会变成负债。*

关键参与者与案例研究

向不可理解代码的转变,由各大AI代码生成平台推动,每个平台都有不同的方法和权衡。

GitHub Copilot (微软/OpenAI):部署最广泛的AI编程助手,截至2025年初拥有超过180万付费用户。Copilot擅长生成样板代码和常见模式,但其代码通常缺乏上下文感知。一家大型电商公司的案例研究表明,Copilot为一个支付处理模块生成的代码包含一个微妙的竞态条件,该条件通过了所有单元测试,但在负载下失败——并且三名高级工程师花了两个星期调试,因为代码逻辑过于复杂。

Cursor (Anysphere):一个较新的入局者,将自己定位为“AI优先的IDE”。Cursor允许开发者通过自然语言描述更改来编辑代码,这加剧了不透明性问题。生成的代码通常更加“外星化”,因为模型是在优化以响应用户的提示,而不是代码库的现有模式。Cursor拥有超过50万用户,并在A轮融资中筹集了6000万美元。

Codeium:一个专注于企业部署的竞争对手,Codeium声称通过引入一个生成函数自然语言摘要的辅助模型,来生成“更具可解释性”的代码。然而,独立审计显示,这些摘要通常不准确或过于泛泛。Codeium拥有40万用户,筹集了6500万美元。

Replit Ghostwriter:集成在Replit平台中,Ghostwriter被初学者和爱好者大量使用。这造成了一个特别危险的场景:新手开发者依赖AI生成的代码,却没有能力审计它。Ghostwriter ha

更多来自 Hacker News

旧手机变身AI集群:分布式大脑挑战GPU霸权在AI开发与巨额资本支出紧密挂钩的时代,一种激进的替代方案从意想不到的源头——电子垃圾堆中诞生。研究人员成功协调了数百台旧手机组成的分布式集群——这些设备通常因无法运行现代应用而被丢弃——来执行大型语言模型的推理任务。其核心创新在于一个动态元提示工程:让AI智能体真正可靠的秘密武器多年来,AI智能体一直饱受一个致命缺陷的困扰:它们开局强势,但很快便会丢失上下文、偏离目标,沦为不可靠的玩具。业界尝试过扩大模型规模、增加训练数据,但真正的解决方案远比这些更优雅。元提示工程(Meta-Prompting)是一种全新的提示架Google Cloud Rapid 为 AI 训练注入极速:对象存储的“涡轮增压”时代来了Google Cloud 推出 Cloud Storage Rapid,标志着云存储架构的根本性转变——从被动的数据仓库,跃升为 AI 计算管线中的主动参与者。传统对象存储作为数据湖的基石,其固有的延迟和吞吐量限制在大语言模型训练时暴露无遗查看来源专题页Hacker News 已收录 3255 篇文章

时间归档

May 20261212 篇已发布文章

延伸阅读

有界AI智能体:pm-go如何实现无需人工审查的代码交付自动化开源框架pm-go展示了AI辅助开发的范式转变:有界智能体能够自主将功能规格转化为经过审查并合并的代码。这标志着从编码副手到纪律严明的工程队友的关键成熟。Claude Opus-4-7 vs Codex GPT-5-5:AI编程战争重塑软件工程两大AI编程巨头——Claude Code Opus-4-7与Codex GPT-5-5——正陷入一场无声的战争。AINews深度揭秘:这些下一代AI助手已超越自动补全,能够自主调试、重构代码并协同工作,迫使开发者角色发生根本性重塑。AI代码生成的五年之痒:从荒诞喜剧到核心开发现实一幅2021年描绘AI生成代码荒诞性的漫画近日再度流传,它并非怀旧,而是映照当下的镜子。程序员调试AI胡言乱语式输出的场景,已从夸张笑料转变为日常开发体验。这标志着AI完成了从辅助工具到软件工程核心组件的根本性跃迁。AI智能体重构遗留代码:自主软件工程革命已至自主AI智能体已成功完成对单体软件架构的完整复杂重构,标志着软件工程的范式转移。这代表AI正从编码助手进化为战略执行者,能以前所未有的连贯性与速度管理多步骤架构工作流。

常见问题

这次模型发布“The Unintelligible Code Crisis: Why AI-Generated Software Is a Digital Tower of Babel”的核心内容是什么?

The software engineering world is quietly undergoing a transformation that few are willing to confront. Large Language Models (LLMs) like GPT-4, Claude, and specialized code genera…

从“Is AI-generated code safe for production?”看,这个模型发布为什么重要?

The core of the problem lies in how LLMs generate code. Unlike traditional compilers or human developers, LLMs do not build code through a logical chain of reasoning. They predict tokens based on statistical patterns lea…

围绕“How to audit code written by AI assistants?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。