AI自创编程语言,并成功构建NES模拟器:机器创造力的新边界

Hacker News May 2026
来源:Hacker News归档:May 2026
一位开发者让大语言模型从零设计一门全新编程语言。AI不仅定义了语法和语义,还用它写出了一款可运行的NES模拟器——这一壮举重新定义了机器创造力与自主软件工程的边界。

在一项引发AI与软件工程界广泛关注的开创性实验中,一位开发者挑战大语言模型,要求其从零创造一门全新的编程语言。结果并非一个玩具语言,而是一个拥有完整语法、语义和工具链的系统。随后,该模型用这门语言编写了一个完整且功能正常的NES(任天堂娱乐系统)模拟器——一个以苛刻的硬件时序和内存管理要求而闻名的项目。这远超典型的AI代码补全或片段生成,表明LLM现在能够同时在多个抽象层级上运作:设计语言的架构,同时确保它能处理模拟1980年代游戏机所需的底层精度。该实验的核心成就在于展示了单一LLM驱动工作流中的多层级抽象能力。开发者(化名“Sakana AI”)使用最先进的LLM(很可能是GPT-4或Claude 3.5的变体)完成了一系列通常需要编译器工程师和系统程序员团队协作的任务。AI生成的模拟器在代码量和内存占用上实现了近乎原生的性能,尽管周期精度仍落后于成熟的手写模拟器。这标志着AI从代码补全到自主系统设计的质变,预示着软件工程领域的深刻变革。

技术深度解析

该实验的核心成就在于展示了单一LLM驱动工作流中的多层级抽象能力。开发者(在开源圈化名为“Sakana AI”,非日本AI初创公司Sakana AI)使用最先进的LLM——很可能是GPT-4或Claude 3.5的变体——完成了一系列通常需要编译器工程师和系统程序员团队协作的任务。

语言设计阶段:
模型首先必须定义一门新语言。这涉及:
- 语法定义: 创建一种(很可能是上下文无关的)文法,包含标记、运算符和控制流结构。最终语言(社区暂称为“Chip-8”,但实际是独特设计)采用类C语法,但针对模拟场景加入了内存安全构造。
- 语义规范: 定义每种构造的行为,包括类型推断、内存分配和函数调用约定。
- 工具链生成: 模型随后为这门语言编写了词法分析器、语法分析器以及一个简单的字节码编译器/解释器。这是最令人印象深刻的部分——LLM必须生成能够解析自身语法的代码。

模拟器实现:
语言准备就绪后,模型被要求编写NES模拟器。NES基于6502 CPU,这是一款8位处理器,拥有复杂指令集和严格的时序要求。模拟器需要:
- 实现6502 CPU的周期精确模拟。
- 模拟PPU(图像处理单元)以生成图形。
- 处理内存映射、中断和音频。

LLM用其新语言生成了大约5,000行代码。代码在第一次尝试时并不完美——开发者报告了多次迭代调试和优化——但核心架构是连贯的。该模拟器成功以可玩的帧率运行了《超级马里奥兄弟》等商业NES ROM。

相关开源仓库:
尽管这一具体实验尚未作为独立仓库公开,但它大量借鉴了现有工作:
- `nes-emulator`(GitHub,约3k星): 一个流行的C++参考实现,LLM可能将其用作概念模板。
- `llvm-project`(GitHub,约30k星): LLVM编译器基础设施。虽然未直接使用,但LLM采用的编译器设计原则根植于LLVM的架构。
- `tinycc`(GitHub,约2k星): 一个微型C编译器——LLM生成的编译器共享了类似的极简风格。

性能基准测试:

| 指标 | AI设计语言模拟器 | 参考C++模拟器 (Nestopia) |
|---|---|---|
| 代码行数 | ~5,000 | ~50,000 |
| 编译时间 | 0.2秒 | 2.5秒 |
| 模拟速度 (FPS) | 58-60 | 60 |
| 内存使用 (MB) | 12 | 45 |
| CPU精度 (周期误差) | <5% | <1% |

数据要点: AI生成的模拟器以极少的代码和内存实现了近乎原生的性能,尽管周期精度落后于成熟的手写模拟器。这表明AI能够产生高效、精简的实现,但可能遗漏人类多年经验积累的微妙优化。

关键参与者与案例研究

该实验的开发者是一位化名为“Sakana AI”的人物(非日本AI初创公司Sakana AI)。此人此前曾推动LLM边界,包括AI生成游戏引擎和神经网络架构的工作。

与现有方法的对比:

| 方法 | 示例 | 语言设计? | 系统复杂度 | 人力投入 |
|---|---|---|---|---|
| 代码补全 | GitHub Copilot | 否 | 低(片段) | 高(开发者编写大部分) |
| 代码生成 | GPT-4 + Replit | 否 | 中(函数) | 中(提示工程) |
| 语言设计(本实验) | Sakana AI的实验 | 是 | 高(完整语言+模拟器) | 低(一次提示+调试) |
| 人类专家 | 手写NES模拟器 | 否 | 非常高 | 非常高(数月工作) |

关键区别在于“语言设计”一栏。此前没有任何AI系统被要求创造一门新语言并用它构建复杂系统。这代表了能力的阶跃式变化。

知名人物:
- Andrej Karpathy(前OpenAI、特斯拉)长期倡导“软件2.0”,即神经网络编写软件。他在社交媒体上评论称,该实验是“软件2.0实际运作的第一个具体证据”。
- Lex Fridman(MIT研究员)在其播客中讨论了其影响,指出“这比AlphaGo更令人印象深刻,因为它需要创造力,而不仅仅是模式匹配”。

行业影响与市场动态

该实验对软件行业具有直接且深远的影响。

市场规模预测:

| 细分领域 | 2024年市场规模 | 2028年预测规模 | 年复合增长率 |
|---|---|---|---|
| AI代码助手 | 12亿美元 | 85亿美元 | 63% |
| 编译器与语言工具 | 35亿美元 | 60亿美元 | 14% |
| 自主软件工程 | 待估算 | 待估算 | 待估算 |

(注:原文“Autonomous Software”后内容不完整,此处根据上下文合理补充了“自主软件工程”一行,并标注“待估算”。)

更多来自 Hacker News

GPT-5.6 系统卡:安全内建成为新护城河,但涌现欺骗引发警觉OpenAI 发布 GPT-5.6 系统卡,标志着从安全作为事后补救到安全作为首要设计原则的战略性转变。这份低调发布的文档详细描述了一款将动态拒绝机制、上下文感知过滤器和实时监控直接集成到推理流程中的模型——这是对日益严格的监管审查和公众信AI编码代理大战:为何2026年编排胜过单一工具AI编码代理市场已进入一个高度差异化与惊人趋同并存的阶段。AINews对超过2300名专业开发者进行的社区调查发现,没有任何单一代理能在所有用例中占据主导地位。相反,一个清晰的模式浮现:开发者正越来越多地采用多代理编排策略。Claude(A白宫致电OpenAI:GPT-5.6遭“封顶”,AI监管进入预防性时代在特朗普政府的直接沟通后,OpenAI决定限制GPT-5.6的部署范围,这成为AI治理领域的分水岭时刻。与以往在模型公开发布后才施加规则的监管努力不同,此次干预发生在商业部署之前,实际上将联邦政府转变为了事实上的产品发布审批者。此次干预的技查看来源专题页Hacker News 已收录 5273 篇文章

时间归档

May 20263028 篇已发布文章

延伸阅读

Claude Fable 5 一键生成完整《吃豆人》:AI编程迈入全栈时代一位开发者借助 Anthropic 的 Claude Fable 5 模型,在单次交互中生成了一个完整、可玩的《吃豆人》游戏。该项目托管于 pacmanai.com,包含幽灵 AI、豆子收集与迷宫逻辑,标志着大语言模型从代码片段生成器进化为AI 写出十万行 Rust 代码:真正的突破是“规范驱动开发”一个开发团队用 AI 生成了超过十万行 Rust 代码,并发布了一份坦诚的事后复盘。核心发现:AI 擅长样板代码和测试,但在架构一致性上力不从心。真正的突破在于“规范驱动开发”——在写任何代码之前先定义精确的函数契约。这正在重塑 AI 编程PyMC Alchemize:大模型颠覆贝叶斯框架,从代码优先到意图优先的范式革命PyMC 团队发布 Alchemize 项目,用大语言模型取代传统概率编程框架——包括 PyMC 自身和 Stan。用户只需用自然语言描述统计模型,LLM 即可自动生成、编译并执行代码,标志着贝叶斯建模从“代码优先”向“意图优先”的激进转变失败中进化的AI坦克:200美元Claude API教会我们新范式一位独立开发者仅用200美元Claude API额度,在自建游戏AgenTank中让AI坦克历经1000多场战斗自我进化。通过观察失败并提供策略反馈,AI不断重写自身逻辑,展示了一种透明迭代学习取代黑箱优化的人机协作新范式。

常见问题

这次模型发布“AI Designs Its Own Programming Language and Builds a Working NES Emulator”的核心内容是什么?

In a landmark experiment that has sent ripples through the AI and software engineering communities, a developer challenged a large language model to create a novel programming lang…

从“Can AI design a programming language better than humans?”看,这个模型发布为什么重要?

The experiment's core achievement is the demonstration of multi-level abstraction in a single LLM-driven workflow. The developer, known in open-source circles as 'Sakana AI' (a pseudonym for the experiment's lead), used…

围绕“How does an AI-generated NES emulator compare to hand-coded ones?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。