AI将二进制读作语言:LLM如何颠覆逆向工程

Hacker News April 2026
来源:Hacker News归档:April 2026
一位开发者将1992年飞行模拟游戏《特技岛》的原始二进制文件和原版文档喂给大语言模型,模型成功重构了压缩算法、3D坐标系和事件逻辑。这标志着一场范式转变:LLM正从代码生成器进化为代码解释器,能够读取并理解机器级语义。

在一项引发软件保存与逆向工程社区广泛关注的地标性实验中,一位开发者证明,大语言模型(LLM)仅凭原始二进制数据和原版文档,就能解析并重构1992年飞行模拟游戏《特技岛》的核心逻辑。整个过程无需传统反汇编器、十六进制编辑器或人工模式匹配。LLM识别了游戏的自定义压缩算法,映射了其3D坐标系,并破译了事件触发逻辑——这些任务原本需要熟练的逆向工程师花费数周甚至数月时间。这一成就凸显了一个根本性转变:LLM在大量源代码、文档和技术手册的语料上训练后,将二进制数据视为一种结构化语言。它们能够

技术深度解析

这一突破的核心洞察在于,LLM(尤其是基于Transformer的架构)在序列模式识别方面异常出色——而二进制数据本质上就是具有结构规律性的字节序列。本例中的开发者结合了原版游戏手册(扫描并OCR处理)、原始.EXE和数据文件,以及一份精心设计的提示词,指示模型将二进制视为一种具有特定语法(例如压缩标记、坐标分隔符)的“语言”。

工作原理:
- 字节的Token化: 像GPT-4o和Claude 3.5这样的现代LLM能够对原始字节序列进行Token化,尤其是在输入被结构化为十六进制或base64格式时。模型的注意力机制能识别出重复出现的模式——例如,序列`0x78 0x9C`表示zlib压缩,或者一个重复的12字节块对应一个3D顶点(x、y、z各为4字节浮点数)。
- 文档的上下文推理: LLM将二进制模式与原版手册中的文字描述进行交叉引用。如果手册写道“地形数据以256x256网格的16位高度值存储”,模型就能在二进制中搜索一个131,072字节的块(256*256*2)并验证该假设。
- 迭代优化: 开发者使用了多轮对话,要求LLM输出其推理过程,然后将测试反编译器返回的错误信息反馈给模型,以优化其理解。这本质上是一种应用于二进制分析的思维链(CoT)方法。

相关开源工具:
- ghidra_llm_bridge(GitHub,约1.2k星):一个用于Ghidra逆向工程框架的插件,可将反编译后的代码发送给LLM进行注释和重命名。它展示了混合方法——传统反汇编用于控制流,LLM用于语义标注。
- binaryAI(GitHub,约800星):剑桥大学的一个研究项目,使用类似BERT的模型从剥离后的二进制文件中预测函数名和变量类型。它在函数名恢复上的准确率约为65%,而传统启发式方法约为30%。
- Stunt Island Reversing Project(尚未公开,但开发者已分享日志):具体方法是将二进制文件分割成64KB的块,每块连同提示模板一起喂给LLM:“你是一名逆向工程师。分析这个十六进制转储。该游戏使用自定义的RLE变体。识别长度前缀并输出解压后的数据。”

性能基准测试:

| 任务 | 传统逆向工程(人类专家) | LLM辅助(GPT-4o) | 节省时间 |
|---|---|---|---|
| 识别压缩算法 | 2-4小时(手动字节分析) | 15分钟(提示+验证) | 87-93% |
| 重构3D顶点格式 | 1-2天(与渲染交叉引用) | 2小时(配合手动文档输入) | 83-91% |
| 映射事件触发逻辑 | 3-5天(动态追踪) | 4小时(静态+文档推理) | 90-95% |
| 完整游戏逻辑重构 | 4-8周 | 2-3周(配合迭代优化) | 50-62% |

数据要点: LLM在模式识别和语义推理方面表现出色,但在控制流和边缘情况处理上仍需人工验证。最大的时间节省体现在算法识别和数据结构映射上——这些任务模式密集而文档稀疏。

关键参与者与案例研究

这项实验并非孤立事件。多个组织与研究人员正在积极推动LLM辅助逆向工程走向生产应用。

关键参与者:
- OpenAI(GPT-4o, o3): 用于《特技岛》实验的模型。其处理长上下文(128K tokens)和执行多步推理的能力至关重要。OpenAI尚未正式认可二进制分析,但内部研究表明他们正在探索这一方向。
- Anthropic(Claude 3.5 Sonnet): 以其强大的文档理解能力和安全约束著称。Claude特别擅长解析扫描版PDF(如老游戏手册)并将其与代码进行交叉引用。
- Google DeepMind(Gemini 2.0): 已发表关于“从二进制理解代码”的研究,使用多模态模型同时读取十六进制转储和汇编代码。
- Hex-Rays(IDA Pro): 占主导地位的商业反汇编器。他们在IDA 9.0中集成了基于LLM的函数命名功能,但仅限于x86/x64架构。《特技岛》实验挑战了他们的方法,表明LLM可以在完全没有反汇编器的情况下工作。
- 游戏保存社区: 像视频游戏历史基金会和互联网档案馆软件收藏这样的组织正在积极资助AI辅助逆向工程项目。他们视此为拯救数千款因公司收购或火灾(例如2019年环球影城火灾)而丢失源代码的游戏的方法。

基于LLM的逆向工程工具对比:

| 工具/方法 | 基础模型 | 输入格式 | 输出 | 准确率(函数命名) | 成本(每次分析) |
|---|---|---|---|---|---|
| ghidra_llm_bridge | GPT-4o / Claude 3.5 | 反编译的C代码 | 重命名的函数、注释 | ~70% | $0.01-0.05 |
| binaryAI | 自定义BERT | 剥离的二进制 | 预测的函数名、类型 | ~65% | 免费(研究用途) |
| Stunt Island方法 | GPT-4o | 原始二进制+文档 | 重构的算法、数据结构 | 已验证(非通用) | $0.50-2.00(完整游戏) |
| IDA Pro 9.0 LLM | 内部模型 | 反汇编代码 | 函数命名 | ~50%(x86/x64) | 包含在许可证中 |

更多来自 Hacker News

AI的传销困局:当生成式技术沦为拉人头游戏生成式AI领域正经历一场悄无声息却令人警醒的蜕变。从硅谷到深圳,越来越多初创公司不再专注于打造卓越模型或产品,而是热衷于构建与多级分销(MLM)高度相似的复杂推荐与佣金体系。这些公司招募“AI大使”,后者不仅通过销售订阅赚钱,更通过招募其他温水煮青蛙:LLM辅助编程如何悄然重塑软件开发长期以来,关于AI在软件开发中的叙事,一直被失业恐慌和革命性突破的戏剧性预测所主导。然而,全球工程团队内部正在发生的现实要微妙得多——也更具变革性。AINews观察到,LLM辅助编程并非通过一声巨响传播,而是通过一种“慢煮效应”:开发者逐步愤怒引擎:算法如何将情绪转化为最暴利的数字产品AINews对算法放大愤怒的现象进行了深入调查,揭示这并非技术故障,而是一种蓄意的、以利润为导向的设计。问题的核心在于推荐算法优化用户留存和点击率。这些系统发现,负面、高唤醒度的内容——愤怒、恐惧、愤慨——是粘住用户最有效的“胶水”。每一次查看来源专题页Hacker News 已收录 4918 篇文章

时间归档

April 20263042 篇已发布文章

延伸阅读

AI解码遗留代码:大语言模型如何成为古老软件的“数字考古学家”一名开发者仅凭大语言模型,在数小时内逆向工程了一个既无文档、无注释、也无原作者可寻的遗留服务。这一案例标志着范式转变:AI正成为终极代码考古学家,挖掘深埋于古老软件中的逻辑。温水煮青蛙:LLM辅助编程如何悄然重塑软件开发一场静默的革命正在软件开发领域展开。LLM辅助编程并非突如其来的颠覆,而是一种渐进的“慢煮”过程,正让开发者对AI的依赖日益加深。AINews深入探讨这一微妙转变如何重塑代码编写、审查与维护的底层逻辑。愤怒引擎:算法如何将情绪转化为最暴利的数字产品社交媒体与AI驱动的内容系统并非偶然放大愤怒——它们被刻意设计成如此。AINews深度揭秘“愤怒引擎”背后的技术与经济架构,揭示推荐算法如何优先推送高唤醒度的负面内容以最大化用户参与,并指出生成式AI的崛起将使这种操控变得更加精准且规模化。白宫与Anthropic转向硬监管:自愿AI安全承诺终结,强制标准时代来临白宫已从自愿性AI安全承诺转向正式规则制定,Anthropic成为关键合作伙伴。这标志着前沿AI自我监管时代的终结,以及可执行标准的开端——这些标准将重塑模型测试、部署和监控的方式。

常见问题

这次模型发布“AI Reads Binary Like a Language: How LLMs Are Revolutionizing Reverse Engineering”的核心内容是什么?

In a landmark experiment that has sent ripples through the software preservation and reverse engineering communities, a developer demonstrated that a large language model (LLM) can…

从“how to use LLM to reverse engineer old games”看,这个模型发布为什么重要?

The core insight behind this breakthrough is that LLMs, particularly transformer-based architectures, are exceptionally good at pattern recognition across sequences — and binary data is, at its heart, a sequence of bytes…

围绕“best AI tools for binary analysis and decompilation”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。