布尔逻辑测试揭示顶级AI模型关键推理缺陷

Hacker News June 2026
来源:Hacker News归档:June 2026
一位开发者构建了一套测试引擎,利用数学上确定性的Quine-McCluskey算法,对大型语言模型进行布尔逻辑评估。初步结果显示,即便是前沿模型也在基本的AND、OR和NOT运算上持续出错,暴露出当前AI在基础推理能力上的根本性缺陷。

AI行业长期以来一直为大型语言模型的语言流畅性和规模而欢呼,但一套新的测试引擎正在戳破这一泡沫。由独立开发者构建的这套工具,将布尔函数最小化的黄金标准方法——Quine-McCluskey算法——作为无歧义的基准。结果令人震惊:GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro等模型,在任何一个计算机科学大一新生都能解决的简单逻辑问题上,频繁给出错误输出。该引擎从简化逻辑表达式到评估真值表等多种场景对模型进行测试,并以二元通过/失败标准评分——没有部分分数,没有概率性回旋余地。这一举措标志着AI社区内部正日益推动超越表面能力的评估,转向对基础推理能力的严格检验。

技术深度解析

布尔逻辑测试引擎的运行原理看似简单:将语言模型的输出与Quine-McCluskey算法产生的数学精确结果进行比较。该算法由Willard Quine于1950年代提出,后经Edward McCluskey改进,是一种用于最小化布尔函数的确定性方法。它能为任何给定的真值表保证最简的“积之和”表达式,因此成为评估逻辑推理的理想基准真相。

引擎通过生成包含2到6个变量的随机布尔表达式,然后要求模型简化表达式、针对特定输入组合求值,或输出最小化形式。每个测试使用不同的随机种子多次运行,以考虑随机性。评分是二元的:模型的输出必须与Quine-McCluskey结果完全一致。对于“接近”的答案,不给部分分数。

在底层,引擎使用了Quine-McCluskey算法的Python实现,该实现以`qm`包的形式托管在GitHub上(目前获得1.2k星标)。该算法通过列出函数的所有最小项,利用恒等式A + A' = 1迭代合并它们,然后选择一组最小的素蕴含项。对于最多6个变量的函数,这在计算上微不足道;但对于更大的问题,算法的指数级复杂度(O(3^n/n))会变得难以承受——这也是为什么现实世界中的逻辑综合工具通常使用Espresso等启发式方法。

开发者测试的初步基准结果令人警醒:

| 模型 | 2变量准确率 | 3变量准确率 | 4变量准确率 | 5变量准确率 |
|---|---|---|---|---|
| GPT-4o | 87% | 72% | 58% | 41% |
| Claude 3.5 Sonnet | 91% | 76% | 62% | 44% |
| Gemini 1.5 Pro | 84% | 68% | 51% | 35% |
| Llama 3.1 405B | 79% | 63% | 45% | 29% |
| Qwen2.5-72B | 82% | 66% | 48% | 32% |

数据要点: 即使是最好的模型(Claude 3.5 Sonnet)在近四分之一的三变量问题上也会失败,而所有模型在五变量问题上的准确率都降至50%以下。这不是一个边缘问题——这是逻辑推理的系统性失败,并且随着问题复杂度的增加而可预测地恶化。

该引擎还测试了常见的失败模式:模型经常产生语法有效但逻辑不正确的表达式,或者“幻觉”出原始函数中不存在的额外项。在一个引人注目的例子中,GPT-4o被要求简化A·B + A·B',却返回了A·B + A·B',而不是正确的A。这表明模型是在进行表面语法层面的模式匹配,而非执行真正的逻辑演绎。

关键参与者与案例研究

该引擎的开发者,在GitHub上以“LogicSage”为名,一直是当前AI评估实践的直言批评者。他们之前的工作包括一个名为`reasoning-bench`的代码库(获得4.5k星标),用于测试模型在命题逻辑和三段论方面的能力。布尔引擎是该工作的延伸,专门针对语言理解与形式逻辑之间的差距。

几家AI实验室已经注意到了这一点。Anthropic的研究人员私下承认了这些结果,一位团队成员在内部备忘录中指出:“这是我们本应自己构建的那种评估。”OpenAI尚未公开评论,但内部消息人士透露,该公司正在开发类似的逻辑评估套件。Google DeepMind有一个团队正在研究“神经符号”方法,将神经网络与符号推理引擎相结合,但他们的公开基准仍然主要侧重于语言任务。

各大实验室评估方法的比较:

| 实验室 | 主要评估套件 | 逻辑覆盖范围 | 开源? |
|---|---|---|---|
| OpenAI | SimpleQA, MMLU, HumanEval | 极少(MMLU包含少量逻辑) | 否 |
| Anthropic | Claude Eval, BIG-bench | 中等(BIG-bench包含逻辑任务) | 部分 |
| Google DeepMind | BIG-bench, MATH, GSM8K | 低 | 否 |
| Meta (FAIR) | Open LLM Leaderboard, HELM | 低 | 是 |
| 独立开发者 (LogicSage) | 布尔逻辑引擎 | 完整(布尔代数) | 是(GitHub) |

数据要点: 主要AI实验室并未优先考虑严格的逻辑评估。目前最全面的逻辑基准来自一位独立开发者,而非资金充足的研究团队。这是一个亟待填补的空白。

行业影响与市场动态

布尔逻辑缺陷的影响远远超出了学术好奇的范畴。在金融服务领域,AI模型正被部署用于算法交易、风险评估和欺诈检测——所有这些领域,布尔逻辑都是决策规则的基石。一个无法可靠地将A·B + A·B'简化为A的模型,不能被信任来评估复杂的交易条件。

在医疗保健领域,诊断AI系统通常依赖于症状和检测结果的逻辑组合。一个在4变量布尔表达式上失败的模型,在临床决策支持中可能产生灾难性后果。

更多来自 Hacker News

AI路由器的崛起:智能流量控制如何将推理成本降低60%一刀切的模型服务时代正在终结。随着大语言模型在规模和复杂度上不断膨胀,将每个查询都简单路由至单一巨型模型的传统做法,在经济上已难以为继。一种全新的架构层——智能路由器——正应运而生,以解决这一痛点。这些路由器充当智能交通调度员,实时评估每个HPE DL394 Gen12 搭载 Nvidia Vera:智能体 AI 呼唤以 CPU 为核心的服务器设计HPE 发布 DL394 Gen12 标志着对过去两年主导企业 AI 基础设施的 GPU 中心范式的决定性突破。该服务器是首款搭载 Nvidia Vera CPU 的产品,这颗处理器并非为原始矩阵乘法而设计,而是为自主 AI 智能体所需的逻Lean 精简 AI 过度工程:两条规则驯服 Claude Code 的设计瘾由 Anthropic 打造的 AI 编程助手 Claude Code,因其生成复杂但往往不必要的抽象层、设计模式和样板代码而闻名——这种现象被称为“过度工程”。开发者报告称,即便用户只要求一个简单方案,该模型也频繁添加层层复杂性,增加了维查看来源专题页Hacker News 已收录 4365 篇文章

时间归档

June 2026727 篇已发布文章

延伸阅读

GPT-2如何理解“不”:因果回路图谱揭示AI的逻辑根基研究人员成功对GPT-2进行了因果解剖,精准定位了负责处理否定含义的特定网络层与注意力头。这项研究超越了相关性分析,确立了因果关系,为绘制AI模型背后基础逻辑运算的“神经布线图”提供了一套可复现的方法论。Kagento AI编程竞技场:竞争性编程如何重塑人机协作新范式全新平台Kagento正将AI辅助编程转变为一项竞技运动。这个被称作'AI智能体版LeetCode'的平台,在六天内完全由AI工具构建而成,标志着AI从被动工具向可量化评估的主动队友的根本性转变,或将为协同智能评估建立全新基准。AI路由器的崛起:智能流量控制如何将推理成本降低60%新一代智能路由器正在重塑大语言模型推理格局:它能实时评估每个查询的复杂度、延迟容忍度和精度需求,动态将其路由至最具性价比的模型与硬件组合。这一架构变革有望将推理成本削减40-60%,同时解锁兼顾延迟、准确性与开支的混合部署模式。HPE DL394 Gen12 搭载 Nvidia Vera:智能体 AI 呼唤以 CPU 为核心的服务器设计慧与科技(HPE)推出 ProLiant Compute DL394 Gen12,这是首款集成 Nvidia Vera CPU 的服务器,专为智能体 AI 工作负载设计。这标志着从 GPU 主导的架构向 CPU 主导的编排模式的根本性转变,

常见问题

GitHub 热点“Boolean Logic Test Exposes Critical Reasoning Flaws in Top AI Models”主要讲了什么?

The AI industry has long celebrated the linguistic fluency and scale of large language models, but a new testing engine is cutting through the hype. Built by an independent develop…

这个 GitHub 项目在“Boolean logic AI benchmark Quine-McCluskey”上为什么会引发关注?

The Boolean logic testing engine operates on a deceptively simple principle: compare a language model's output against the mathematically exact result produced by the Quine-McCluskey algorithm. This algorithm, developed…

从“LLM logical reasoning failure rates”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。