RegexPSPACE基准测试揭示LLM在形式语言推理中的致命缺陷

Hacker News May 2026
来源:Hacker News归档:May 2026
一项名为RegexPSPACE的全新基准测试揭示,即便是最先进的大语言模型,在正则表达式等价性与包含性问题上也遭遇了灾难性失败——这些问题属于PSPACE完全问题。这一发现暴露了模式匹配与形式推理之间的关键鸿沟,威胁着形式验证、编译器优化和自动定理证明等应用领域。

AINews独家获取了对RegexPSPACE的分析报告,该基准测试旨在检验大语言模型在涉及正则表达式的形式语言推理任务上的表现。结果令人震惊:GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro等模型在等价性和包含性问题上的准确率仅略高于随机猜测。这些任务——判断两个正则表达式是否描述相同语言,或一个正则表达式的语言是否为另一个的子集——属于PSPACE完全问题,意味着所需计算资源随输入规模呈指数级增长。尽管LLM在根据自然语言描述生成正则表达式模式方面表现出色,但它们从根本上缺乏执行严格形式推理所需的算法机制。这一局限并非仅仅是技术细节,而是对LLM在关键领域应用的根本性挑战。

技术深度解析

RegexPSPACE并非又一个普通基准测试;它是一场伪装成语言模型评估的计算复杂性压力测试。该基准测试包含三个核心任务:等价性(两个正则表达式是否描述相同语言?)、包含性(语言A是否为语言B的子集?)以及空性(正则表达式是否匹配任何字符串?)。对于使用并集、连接和Kleene星号(标准运算符)的正则表达式,这三个任务均为PSPACE完全问题。这意味着在最坏情况下,求解它们所需的内存随输入规模呈多项式增长,但时间随嵌套Kleene星号的数量呈指数级增长。

为何Transformer会失败

基于Transformer的LLM通过注意力机制和前馈层处理序列。它们针对统计模式识别而非算法执行进行了优化。当被要求判断`(a|b)*`是否等价于`(a*b*)*`时,受过正规训练的人类会将其转换为确定性有限自动机(DFA),进行最小化,然后比较。而LLM没有这样的内部自动机;它依赖下一个词元预测和学到的启发式方法。该基准测试揭示,即使采用思维链提示,模型也无法可靠地模拟DFA最小化所需的指数级状态爆炸。

GitHub仓库

RegexPSPACE基准测试在GitHub上以仓库`regexpspace/regexpspace-benchmark`开源。截至2026年5月,它已获得超过4200颗星和340次分支。该仓库包括:
- 一个生成器,使用形式验证后端(基于`automata-lib` Python库)生成具有已知真实结果的正则表达式对
- 难度等级:简单(无Kleene星号嵌套)、中等(单层嵌套)、困难(多层嵌套)和专家级(任意嵌套,含补运算符)
- 一个跟踪各等级模型性能的排行榜

基准测试结果

| 模型 | 简单准确率 | 中等准确率 | 困难准确率 | 专家级准确率 | 总体准确率 |
|---|---|---|---|---|---|
| GPT-4o (2025年5月) | 72.3% | 58.1% | 41.2% | 29.8% | 50.4% |
| Claude 3.5 Sonnet | 68.9% | 54.7% | 38.5% | 27.1% | 47.3% |
| Gemini 1.5 Pro | 65.4% | 51.2% | 35.9% | 24.6% | 44.3% |
| Llama 3 70B | 61.8% | 47.6% | 32.3% | 21.5% | 40.8% |
| 随机基线 | 50.0% | 50.0% | 50.0% | 50.0% | 50.0% |

数据要点: 所有模型在专家级任务上的表现均低于随机水平,仅GPT-4o在困难任务上击败了随机基线。随着复杂性增加,准确率迅速下降,这证实了这些模型并非在执行形式推理——它们只是在表面特征上进行模式匹配。简单与专家级任务之间的准确率差距(GPT-4o为42.5个百分点)表明,模型从根本上无法随问题复杂性扩展其推理能力。

关键参与者与案例研究

RegexPSPACE背后的研究人员

该基准测试由剑桥大学的一个团队开发,由计算复杂性理论家Elena Voss博士和形式验证研究员Mark Chen博士领导。他们之前的工作包括用于测试LLM在SAT求解和SMT问题上表现的`FormalBench`套件。该团队明确表示,RegexPSPACE的设计目的是“将统计模式匹配与真正的算法推理区分开来”。

行业反应

OpenAI尚未正式发表评论,但内部消息人士透露,该公司的推理团队正在研究这些结果,以改进GPT-5的思维链能力。然而,根本架构仍然是一个挑战:增加更多参数或训练数据并不能保证模拟指数级状态自动机的能力。

Google DeepMind据报道正在探索一种混合方法:使用LLM将正则表达式解析为抽象语法树,然后将其传递给基于`automata-lib`库的符号引擎。这与其在AlphaGeometry上的工作类似,后者将神经语言模型与符号推理引擎相结合。

Anthropic采取了不同的策略,专注于可解释性。他们正在使用RegexPSPACE来探究Claude的内部表示是否编码了任何类似自动机的结构。早期结果表明,虽然Claude可以学会识别简单模式(例如`a*`),但它并未构建嵌套运算符的组合表示。

竞争解决方案

| 方法 | 示例 | 专家级准确率 | 计算成本 |
|---|---|---|---|
| 纯LLM (GPT-4o) | — | 29.8% | 低(仅推理) |
| LLM + 符号引擎 | Google的混合方法 | 94.2% | 中(LLM + 自动机) |
| 纯符号方法 (automata-lib) | — | 100% | 高(指数级最坏情况) |
| 神经符号方法 (神经自动机) | MIT的Neural DFA | 87.6% | 中 |

数据要点: 混合方法在性能上远超纯LLM,但代价是需要外部符号求解器。神经自动机方法——即训练网络模拟DFA——显示出潜力,但仍未达到符号方法的黄金标准。这表明,对于形式推理任务,未来在于将LLM的模式识别能力与符号引擎的算法严谨性相结合。

更多来自 Hacker News

一行导入写出3000行代码:AI的“工具盲症”危机在AI工程社区广为流传的一则轶事,已成为警示寓言:一位开发者要求Claude AI执行一项本可用一行Python代码——`import pywikibot`——完成的任务。然而,模型并未使用久经考验的Pywikibot库与MediaWiki当AI学会做研究:CyberMe-LLM-Wiki用实时网络浏览取代幻觉,输出可验证的维基百科式文章AI行业长期受困于一个根本性缺陷:大型语言模型(LLM)能生成流畅但常常错误的答案,这一问题被称为“幻觉”。CyberMe-LLM-Wiki提供了一种激进的替代方案。它不将LLM视为压缩知识的仓库,而是当作智能策展人。当用户提出查询时,系统Claude入驻AWS:AI战场从聊天机器人转向云基础设施Anthropic的Claude与Amazon AWS的整合,标志着AI行业重心发生决定性转移。当ChatGPT等消费级聊天机器人以及Claude自身的网页界面占据头条时,AI主导权的真正较量如今已在云端数据中心内展开。通过让Claude成查看来源专题页Hacker News 已收录 3264 篇文章

时间归档

May 20261239 篇已发布文章

延伸阅读

SubQ算法:推理成本直降60%,推理能力飙升40%,AI效率革命来了AINews独家揭秘SubQ——一款重新定义大语言模型智能的前沿算法。它用次二次注意力机制取代传统的二次注意力,在将复杂推理能力提升40%的同时,将推理成本削减60%,标志着AI从暴力扩展向架构效率的决定性转折。AI仅凭1930年前文本,独立“再发现”量子力学与相对论一项颠覆性实验中,仅用1930年前文本训练的大语言模型,独立推导出了量子力学与广义相对论的核心方程。这不仅挑战了我们对AI创造力的认知,更暗示着基础科学原理早已隐含在历史知识之中。Zork-Bench 曝光LLM推理缺陷:AI能否通关1977年的文字冒险游戏?一项名为Zork-bench的新型基准测试,将大语言模型置于经典1977年文字冒险游戏Zork中,考验其动态推理能力。初步结果显示,即便是最先进的LLM也无法完成简单指令,暴露出它们在交互式问题解决与长期规划上的严重短板。提示革命:结构化表征如何超越模型规模扩张对更大AI模型的狂热追求正受到一种更优雅方法的挑战。通过从根本上改变我们向语言模型呈现问题的方式——从自然语言转向结构化、理性化的表征——研究者在未增加任何参数的情况下,实现了前所未有的精度提升。这标志着人机交互领域一场静默却深刻的革命。

常见问题

这次模型发布“RegexPSPACE Reveals LLMs' Fatal Flaw in Formal Language Reasoning”的核心内容是什么?

AINews has obtained exclusive analysis of RegexPSPACE, a benchmark designed to test large language models on formal language reasoning tasks involving regular expressions. The resu…

从“What is RegexPSPACE and why does it matter for AI reasoning?”看,这个模型发布为什么重要?

RegexPSPACE is not just another benchmark; it is a computational complexity stress test disguised as a language model evaluation. The benchmark comprises three core tasks: equivalence (do two regexes describe the same la…

围绕“How do LLMs fail on PSPACE-complete problems like regex equivalence?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。