布尔逻辑测试揭示顶级AI模型关键推理缺陷

2026年6月9日 04:36 AINews Hacker News June 2026

来源：Hacker News 归档：June 2026

一位开发者构建了一套测试引擎，利用数学上确定性的Quine-McCluskey算法，对大型语言模型进行布尔逻辑评估。初步结果显示，即便是前沿模型也在基本的AND、OR和NOT运算上持续出错，暴露出当前AI在基础推理能力上的根本性缺陷。

AI行业长期以来一直为大型语言模型的语言流畅性和规模而欢呼，但一套新的测试引擎正在戳破这一泡沫。由独立开发者构建的这套工具，将布尔函数最小化的黄金标准方法——Quine-McCluskey算法——作为无歧义的基准。结果令人震惊：GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro等模型，在任何一个计算机科学大一新生都能解决的简单逻辑问题上，频繁给出错误输出。该引擎从简化逻辑表达式到评估真值表等多种场景对模型进行测试，并以二元通过/失败标准评分——没有部分分数，没有概率性回旋余地。这一举措标志着AI社区内部正日益推动超越表面能力的评估，转向对基础推理能力的严格检验。

技术深度解析

布尔逻辑测试引擎的运行原理看似简单：将语言模型的输出与Quine-McCluskey算法产生的数学精确结果进行比较。该算法由Willard Quine于1950年代提出，后经Edward McCluskey改进，是一种用于最小化布尔函数的确定性方法。它能为任何给定的真值表保证最简的“积之和”表达式，因此成为评估逻辑推理的理想基准真相。

引擎通过生成包含2到6个变量的随机布尔表达式，然后要求模型简化表达式、针对特定输入组合求值，或输出最小化形式。每个测试使用不同的随机种子多次运行，以考虑随机性。评分是二元的：模型的输出必须与Quine-McCluskey结果完全一致。对于“接近”的答案，不给部分分数。

在底层，引擎使用了Quine-McCluskey算法的Python实现，该实现以`qm`包的形式托管在GitHub上（目前获得1.2k星标）。该算法通过列出函数的所有最小项，利用恒等式A + A' = 1迭代合并它们，然后选择一组最小的素蕴含项。对于最多6个变量的函数，这在计算上微不足道；但对于更大的问题，算法的指数级复杂度（O(3^n/n)）会变得难以承受——这也是为什么现实世界中的逻辑综合工具通常使用Espresso等启发式方法。

开发者测试的初步基准结果令人警醒：

| 模型 | 2变量准确率 | 3变量准确率 | 4变量准确率 | 5变量准确率 |
|---|---|---|---|---|
| GPT-4o | 87% | 72% | 58% | 41% |
| Claude 3.5 Sonnet | 91% | 76% | 62% | 44% |
| Gemini 1.5 Pro | 84% | 68% | 51% | 35% |
| Llama 3.1 405B | 79% | 63% | 45% | 29% |
| Qwen2.5-72B | 82% | 66% | 48% | 32% |

数据要点： 即使是最好的模型（Claude 3.5 Sonnet）在近四分之一的三变量问题上也会失败，而所有模型在五变量问题上的准确率都降至50%以下。这不是一个边缘问题——这是逻辑推理的系统性失败，并且随着问题复杂度的增加而可预测地恶化。

该引擎还测试了常见的失败模式：模型经常产生语法有效但逻辑不正确的表达式，或者“幻觉”出原始函数中不存在的额外项。在一个引人注目的例子中，GPT-4o被要求简化A·B + A·B'，却返回了A·B + A·B'，而不是正确的A。这表明模型是在进行表面语法层面的模式匹配，而非执行真正的逻辑演绎。

关键参与者与案例研究

该引擎的开发者，在GitHub上以“LogicSage”为名，一直是当前AI评估实践的直言批评者。他们之前的工作包括一个名为`reasoning-bench`的代码库（获得4.5k星标），用于测试模型在命题逻辑和三段论方面的能力。布尔引擎是该工作的延伸，专门针对语言理解与形式逻辑之间的差距。

几家AI实验室已经注意到了这一点。Anthropic的研究人员私下承认了这些结果，一位团队成员在内部备忘录中指出：“这是我们本应自己构建的那种评估。”OpenAI尚未公开评论，但内部消息人士透露，该公司正在开发类似的逻辑评估套件。Google DeepMind有一个团队正在研究“神经符号”方法，将神经网络与符号推理引擎相结合，但他们的公开基准仍然主要侧重于语言任务。

各大实验室评估方法的比较：

| 实验室 | 主要评估套件 | 逻辑覆盖范围 | 开源？ |
|---|---|---|---|
| OpenAI | SimpleQA, MMLU, HumanEval | 极少（MMLU包含少量逻辑） | 否 |
| Anthropic | Claude Eval, BIG-bench | 中等（BIG-bench包含逻辑任务） | 部分 |
| Google DeepMind | BIG-bench, MATH, GSM8K | 低 | 否 |
| Meta (FAIR) | Open LLM Leaderboard, HELM | 低 | 是 |
| 独立开发者 (LogicSage) | 布尔逻辑引擎 | 完整（布尔代数） | 是（GitHub） |

数据要点： 主要AI实验室并未优先考虑严格的逻辑评估。目前最全面的逻辑基准来自一位独立开发者，而非资金充足的研究团队。这是一个亟待填补的空白。

行业影响与市场动态

布尔逻辑缺陷的影响远远超出了学术好奇的范畴。在金融服务领域，AI模型正被部署用于算法交易、风险评估和欺诈检测——所有这些领域，布尔逻辑都是决策规则的基石。一个无法可靠地将A·B + A·B'简化为A的模型，不能被信任来评估复杂的交易条件。

在医疗保健领域，诊断AI系统通常依赖于症状和检测结果的逻辑组合。一个在4变量布尔表达式上失败的模型，在临床决策支持中可能产生灾难性后果。

时间归档

常见问题

GitHub 热点“Boolean Logic Test Exposes Critical Reasoning Flaws in Top AI Models”主要讲了什么？

The AI industry has long celebrated the linguistic fluency and scale of large language models, but a new testing engine is cutting through the hype. Built by an independent develop…

这个 GitHub 项目在“Boolean logic AI benchmark Quine-McCluskey”上为什么会引发关注？

The Boolean logic testing engine operates on a deceptively simple principle: compare a language model's output against the mathematically exact result produced by the Quine-McCluskey algorithm. This algorithm, developed…

从“LLM logical reasoning failure rates”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 0，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。