RegexPSPACE基准测试揭示LLM在形式语言推理中的致命缺陷

2026年5月12日 11:05 AINews Hacker News May 2026

来源：Hacker News 归档：May 2026

一项名为RegexPSPACE的全新基准测试揭示，即便是最先进的大语言模型，在正则表达式等价性与包含性问题上也遭遇了灾难性失败——这些问题属于PSPACE完全问题。这一发现暴露了模式匹配与形式推理之间的关键鸿沟，威胁着形式验证、编译器优化和自动定理证明等应用领域。

AINews独家获取了对RegexPSPACE的分析报告，该基准测试旨在检验大语言模型在涉及正则表达式的形式语言推理任务上的表现。结果令人震惊：GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro等模型在等价性和包含性问题上的准确率仅略高于随机猜测。这些任务——判断两个正则表达式是否描述相同语言，或一个正则表达式的语言是否为另一个的子集——属于PSPACE完全问题，意味着所需计算资源随输入规模呈指数级增长。尽管LLM在根据自然语言描述生成正则表达式模式方面表现出色，但它们从根本上缺乏执行严格形式推理所需的算法机制。这一局限并非仅仅是技术细节，而是对LLM在关键领域应用的根本性挑战。

技术深度解析

RegexPSPACE并非又一个普通基准测试；它是一场伪装成语言模型评估的计算复杂性压力测试。该基准测试包含三个核心任务：等价性（两个正则表达式是否描述相同语言？）、包含性（语言A是否为语言B的子集？）以及空性（正则表达式是否匹配任何字符串？）。对于使用并集、连接和Kleene星号（标准运算符）的正则表达式，这三个任务均为PSPACE完全问题。这意味着在最坏情况下，求解它们所需的内存随输入规模呈多项式增长，但时间随嵌套Kleene星号的数量呈指数级增长。

为何Transformer会失败

基于Transformer的LLM通过注意力机制和前馈层处理序列。它们针对统计模式识别而非算法执行进行了优化。当被要求判断`(a|b)*`是否等价于`(a*b*)*`时，受过正规训练的人类会将其转换为确定性有限自动机（DFA），进行最小化，然后比较。而LLM没有这样的内部自动机；它依赖下一个词元预测和学到的启发式方法。该基准测试揭示，即使采用思维链提示，模型也无法可靠地模拟DFA最小化所需的指数级状态爆炸。

GitHub仓库

RegexPSPACE基准测试在GitHub上以仓库`regexpspace/regexpspace-benchmark`开源。截至2026年5月，它已获得超过4200颗星和340次分支。该仓库包括：
- 一个生成器，使用形式验证后端（基于`automata-lib` Python库）生成具有已知真实结果的正则表达式对
- 难度等级：简单（无Kleene星号嵌套）、中等（单层嵌套）、困难（多层嵌套）和专家级（任意嵌套，含补运算符）
- 一个跟踪各等级模型性能的排行榜

基准测试结果

| 模型 | 简单准确率 | 中等准确率 | 困难准确率 | 专家级准确率 | 总体准确率 |
|---|---|---|---|---|---|
| GPT-4o (2025年5月) | 72.3% | 58.1% | 41.2% | 29.8% | 50.4% |
| Claude 3.5 Sonnet | 68.9% | 54.7% | 38.5% | 27.1% | 47.3% |
| Gemini 1.5 Pro | 65.4% | 51.2% | 35.9% | 24.6% | 44.3% |
| Llama 3 70B | 61.8% | 47.6% | 32.3% | 21.5% | 40.8% |
| 随机基线 | 50.0% | 50.0% | 50.0% | 50.0% | 50.0% |

数据要点： 所有模型在专家级任务上的表现均低于随机水平，仅GPT-4o在困难任务上击败了随机基线。随着复杂性增加，准确率迅速下降，这证实了这些模型并非在执行形式推理——它们只是在表面特征上进行模式匹配。简单与专家级任务之间的准确率差距（GPT-4o为42.5个百分点）表明，模型从根本上无法随问题复杂性扩展其推理能力。

关键参与者与案例研究

RegexPSPACE背后的研究人员

该基准测试由剑桥大学的一个团队开发，由计算复杂性理论家Elena Voss博士和形式验证研究员Mark Chen博士领导。他们之前的工作包括用于测试LLM在SAT求解和SMT问题上表现的`FormalBench`套件。该团队明确表示，RegexPSPACE的设计目的是“将统计模式匹配与真正的算法推理区分开来”。

行业反应

OpenAI尚未正式发表评论，但内部消息人士透露，该公司的推理团队正在研究这些结果，以改进GPT-5的思维链能力。然而，根本架构仍然是一个挑战：增加更多参数或训练数据并不能保证模拟指数级状态自动机的能力。

Google DeepMind据报道正在探索一种混合方法：使用LLM将正则表达式解析为抽象语法树，然后将其传递给基于`automata-lib`库的符号引擎。这与其在AlphaGeometry上的工作类似，后者将神经语言模型与符号推理引擎相结合。

Anthropic采取了不同的策略，专注于可解释性。他们正在使用RegexPSPACE来探究Claude的内部表示是否编码了任何类似自动机的结构。早期结果表明，虽然Claude可以学会识别简单模式（例如`a*`），但它并未构建嵌套运算符的组合表示。

竞争解决方案

| 方法 | 示例 | 专家级准确率 | 计算成本 |
|---|---|---|---|
| 纯LLM (GPT-4o) | — | 29.8% | 低（仅推理） |
| LLM + 符号引擎 | Google的混合方法 | 94.2% | 中（LLM + 自动机） |
| 纯符号方法 (automata-lib) | — | 100% | 高（指数级最坏情况） |
| 神经符号方法 (神经自动机) | MIT的Neural DFA | 87.6% | 中 |

数据要点： 混合方法在性能上远超纯LLM，但代价是需要外部符号求解器。神经自动机方法——即训练网络模拟DFA——显示出潜力，但仍未达到符号方法的黄金标准。这表明，对于形式推理任务，未来在于将LLM的模式识别能力与符号引擎的算法严谨性相结合。

时间归档

常见问题

这次模型发布“RegexPSPACE Reveals LLMs' Fatal Flaw in Formal Language Reasoning”的核心内容是什么？

AINews has obtained exclusive analysis of RegexPSPACE, a benchmark designed to test large language models on formal language reasoning tasks involving regular expressions. The resu…

从“What is RegexPSPACE and why does it matter for AI reasoning?”看，这个模型发布为什么重要？

RegexPSPACE is not just another benchmark; it is a computational complexity stress test disguised as a language model evaluation. The benchmark comprises three core tasks: equivalence (do two regexes describe the same la…

围绕“How do LLMs fail on PSPACE-complete problems like regex equivalence?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。