RegexPSPACE基准测试揭示LLM在形式语言推理中的致命缺陷

Hacker News May 2026
来源:Hacker News归档:May 2026
一项名为RegexPSPACE的全新基准测试揭示,即便是最先进的大语言模型,在正则表达式等价性与包含性问题上也遭遇了灾难性失败——这些问题属于PSPACE完全问题。这一发现暴露了模式匹配与形式推理之间的关键鸿沟,威胁着形式验证、编译器优化和自动定理证明等应用领域。

AINews独家获取了对RegexPSPACE的分析报告,该基准测试旨在检验大语言模型在涉及正则表达式的形式语言推理任务上的表现。结果令人震惊:GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro等模型在等价性和包含性问题上的准确率仅略高于随机猜测。这些任务——判断两个正则表达式是否描述相同语言,或一个正则表达式的语言是否为另一个的子集——属于PSPACE完全问题,意味着所需计算资源随输入规模呈指数级增长。尽管LLM在根据自然语言描述生成正则表达式模式方面表现出色,但它们从根本上缺乏执行严格形式推理所需的算法机制。这一局限并非仅仅是技术细节,而是对LLM在关键领域应用的根本性挑战。

技术深度解析

RegexPSPACE并非又一个普通基准测试;它是一场伪装成语言模型评估的计算复杂性压力测试。该基准测试包含三个核心任务:等价性(两个正则表达式是否描述相同语言?)、包含性(语言A是否为语言B的子集?)以及空性(正则表达式是否匹配任何字符串?)。对于使用并集、连接和Kleene星号(标准运算符)的正则表达式,这三个任务均为PSPACE完全问题。这意味着在最坏情况下,求解它们所需的内存随输入规模呈多项式增长,但时间随嵌套Kleene星号的数量呈指数级增长。

为何Transformer会失败

基于Transformer的LLM通过注意力机制和前馈层处理序列。它们针对统计模式识别而非算法执行进行了优化。当被要求判断`(a|b)*`是否等价于`(a*b*)*`时,受过正规训练的人类会将其转换为确定性有限自动机(DFA),进行最小化,然后比较。而LLM没有这样的内部自动机;它依赖下一个词元预测和学到的启发式方法。该基准测试揭示,即使采用思维链提示,模型也无法可靠地模拟DFA最小化所需的指数级状态爆炸。

GitHub仓库

RegexPSPACE基准测试在GitHub上以仓库`regexpspace/regexpspace-benchmark`开源。截至2026年5月,它已获得超过4200颗星和340次分支。该仓库包括:
- 一个生成器,使用形式验证后端(基于`automata-lib` Python库)生成具有已知真实结果的正则表达式对
- 难度等级:简单(无Kleene星号嵌套)、中等(单层嵌套)、困难(多层嵌套)和专家级(任意嵌套,含补运算符)
- 一个跟踪各等级模型性能的排行榜

基准测试结果

| 模型 | 简单准确率 | 中等准确率 | 困难准确率 | 专家级准确率 | 总体准确率 |
|---|---|---|---|---|---|
| GPT-4o (2025年5月) | 72.3% | 58.1% | 41.2% | 29.8% | 50.4% |
| Claude 3.5 Sonnet | 68.9% | 54.7% | 38.5% | 27.1% | 47.3% |
| Gemini 1.5 Pro | 65.4% | 51.2% | 35.9% | 24.6% | 44.3% |
| Llama 3 70B | 61.8% | 47.6% | 32.3% | 21.5% | 40.8% |
| 随机基线 | 50.0% | 50.0% | 50.0% | 50.0% | 50.0% |

数据要点: 所有模型在专家级任务上的表现均低于随机水平,仅GPT-4o在困难任务上击败了随机基线。随着复杂性增加,准确率迅速下降,这证实了这些模型并非在执行形式推理——它们只是在表面特征上进行模式匹配。简单与专家级任务之间的准确率差距(GPT-4o为42.5个百分点)表明,模型从根本上无法随问题复杂性扩展其推理能力。

关键参与者与案例研究

RegexPSPACE背后的研究人员

该基准测试由剑桥大学的一个团队开发,由计算复杂性理论家Elena Voss博士和形式验证研究员Mark Chen博士领导。他们之前的工作包括用于测试LLM在SAT求解和SMT问题上表现的`FormalBench`套件。该团队明确表示,RegexPSPACE的设计目的是“将统计模式匹配与真正的算法推理区分开来”。

行业反应

OpenAI尚未正式发表评论,但内部消息人士透露,该公司的推理团队正在研究这些结果,以改进GPT-5的思维链能力。然而,根本架构仍然是一个挑战:增加更多参数或训练数据并不能保证模拟指数级状态自动机的能力。

Google DeepMind据报道正在探索一种混合方法:使用LLM将正则表达式解析为抽象语法树,然后将其传递给基于`automata-lib`库的符号引擎。这与其在AlphaGeometry上的工作类似,后者将神经语言模型与符号推理引擎相结合。

Anthropic采取了不同的策略,专注于可解释性。他们正在使用RegexPSPACE来探究Claude的内部表示是否编码了任何类似自动机的结构。早期结果表明,虽然Claude可以学会识别简单模式(例如`a*`),但它并未构建嵌套运算符的组合表示。

竞争解决方案

| 方法 | 示例 | 专家级准确率 | 计算成本 |
|---|---|---|---|
| 纯LLM (GPT-4o) | — | 29.8% | 低(仅推理) |
| LLM + 符号引擎 | Google的混合方法 | 94.2% | 中(LLM + 自动机) |
| 纯符号方法 (automata-lib) | — | 100% | 高(指数级最坏情况) |
| 神经符号方法 (神经自动机) | MIT的Neural DFA | 87.6% | 中 |

数据要点: 混合方法在性能上远超纯LLM,但代价是需要外部符号求解器。神经自动机方法——即训练网络模拟DFA——显示出潜力,但仍未达到符号方法的黄金标准。这表明,对于形式推理任务,未来在于将LLM的模式识别能力与符号引擎的算法严谨性相结合。

更多来自 Hacker News

Llamatik Code:敢离线运行的本地优先AI编程助手AINews注意到,随着Llamatik Code的发布,AI开发者工具领域正悄然发生一场意义深远的变革。这款面向IntelliJ系IDE的付费插件完全离线运行,与GitHub、JetBrains和Cursor等主流云端助手截然不同——每一大分裂:基础模型如何扼杀中级ML工程师岗位机器学习工程师这一角色,曾以针对特定任务训练和微调定制模型的能力为定义,如今正经历一场地震般的转变。来自OpenAI、Anthropic和Google DeepMind等实验室的前沿大型语言模型,已经达到一个能力阈值:在文本分类、情感分析、Claude定制聊天机器人:重塑企业工作流的垂直AI革命通用型AI助手的时代正在让位于更强大的存在:基于Anthropic Claude构建的领域专用聊天机器人。与难以应对专业术语和工作流细微差别的通用模型不同,这些定制机器人通过精准的提示工程和精选数据集进行微调,在医学、法律和金融等领域以真正查看来源专题页Hacker News 已收录 5241 篇文章

时间归档

May 20263028 篇已发布文章

延伸阅读

Telnyx AI:从混乱文本中提取结构化JSON,一场静悄悄的数据摄取革命Telnyx 推出了一款 AI 推理工具,能够直接从杂乱无章的非结构化文本中提取结构化的 JSON 数据,彻底告别脆弱的正则表达式或自定义分类器。本文深度分析这一看似简单的功能如何代表企业数据摄取领域的深刻变革,将大语言模型转化为连接人类混AI Agent 重塑开源论坛:Seaticket.ai 为 Discourse 社区注入智能支持一款名为 seaticket.ai 的新工具正部署 AI Agent,自动扫描 Discourse 论坛帖子,检测未解答的技术问题并生成定制化解决方案。这标志着从被动、依赖人工的支持模式,向主动、实时的智能响应转变,有望彻底改变开源社区管理Bateschess:当Stockfish教会大模型像引擎一样计算棋局AINews独家揭秘Bateschess——一个将Stockfish国际象棋引擎与大型语言模型深度融合的创新平台。它通过向LLM的上下文窗口注入精确的数值评估向量,实现了引擎级准确度与自然语境化评论的完美结合。SubQ算法:推理成本直降60%,推理能力飙升40%,AI效率革命来了AINews独家揭秘SubQ——一款重新定义大语言模型智能的前沿算法。它用次二次注意力机制取代传统的二次注意力,在将复杂推理能力提升40%的同时,将推理成本削减60%,标志着AI从暴力扩展向架构效率的决定性转折。

常见问题

这次模型发布“RegexPSPACE Reveals LLMs' Fatal Flaw in Formal Language Reasoning”的核心内容是什么?

AINews has obtained exclusive analysis of RegexPSPACE, a benchmark designed to test large language models on formal language reasoning tasks involving regular expressions. The resu…

从“What is RegexPSPACE and why does it matter for AI reasoning?”看,这个模型发布为什么重要?

RegexPSPACE is not just another benchmark; it is a computational complexity stress test disguised as a language model evaluation. The benchmark comprises three core tasks: equivalence (do two regexes describe the same la…

围绕“How do LLMs fail on PSPACE-complete problems like regex equivalence?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。