LinAlg-Bench 揭示 LLM 数学推理中的结构性断裂

2026年5月19日 12:16 AINews arXiv cs.AI May 2026

来源：arXiv cs.AI 归档：May 2026

全新基准测试 LinAlg-Bench 对 10 款前沿语言模型在 6,600 个线性代数输出中系统性地发现了 1,156 次结构性失败。这些失败并非简单计算错误，而是模型在处理组合推理时深层架构断裂的证据——随着矩阵维度增加，错误率呈灾难性爆炸式增长。

LinAlg-Bench，一项针对数学推理的严格新基准，为当前一代大型语言模型带来了发人深省的结论。通过对 10 款前沿模型进行从 3x3 到 5x5 矩阵运算的测试，该基准发现 17.5% 的输出——即 6,600 个中的 1,156 个——包含结构性失败。与传统准确率指标不同，LinAlg-Bench 采用三阶段自动化诊断流水线，将每次失败归类为十种不同类别之一，包括中间步骤幻觉、代数属性误用和变量追踪丢失。最令人震惊的发现是，错误率并非随矩阵大小线性增长，而是呈灾难性爆炸。对于 3x3 矩阵，各模型的平均失败率为 8.2%；对于 4x4，这一数字跃升至 17.5%；而对于 5x5，则飙升至 35.7%。表现最差的模型 Falcon 2 180B 在 5x5 矩阵上的失败率高达 61.4%，而表现最好的 Claude 3.5 Sonnet 也达到了 26.3%。这些发现表明，当前 LLM 架构在组合推理方面存在根本性缺陷，无法随问题复杂度扩展。

技术深度解析

LinAlg-Bench 代表了 AI 评估的范式转变，从聚合准确率分数转向细粒度失败诊断。该基准的核心创新是其三阶段自动化诊断流水线，通过以下步骤处理每个模型输出：(1) 句法解析以提取数学表达式，(2) 与真实解进行语义验证，以及 (3) 使用包含 10 种失败类型的决策树进行结构分类。

该流水线的架构值得关注。第一阶段使用基于 SymPy 构建的自定义解析器——SymPy 是开源符号数学库（GitHub: sympy/sympy，13,500+ 星标）——将自然语言模型输出转换为符号表达式。第二阶段通过符号等价性检查（而非数值近似）将这些表达式与真实解进行比较——这是一个关键区别，能够捕捉浮点比较无法发现的代数错误。第三阶段应用基于规则的分类器，将差异映射到特定失败类别：中间步骤幻觉（模型凭空捏造不存在的操作）、代数属性误用（例如声称矩阵乘法是可交换的）、变量追踪丢失（无法追踪哪个变量代表哪个矩阵）、维度不匹配、符号错误，以及其他五种。

该基准的设计刻意避免了琐碎的记忆。660 个测试问题涵盖 3x3、4x4 和 5x5 矩阵，其元素来自受控分布的整数、分数和符号变量。没有一个问题出现在标准训练数据中。测试的 10 款模型包括开放权重和专有系统：GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro、Llama 3 70B、Mistral Large、Qwen2.5 72B、DeepSeek-V2、Mixtral 8x22B、Phi-3 Medium 和 Falcon 2 180B。

| 模型 | 3x3 失败率 | 4x4 失败率 | 5x5 失败率 | 总体失败率 | 主要失败类型 |
|---|---|---|---|---|---|
| GPT-4o | 5.2% | 12.1% | 28.7% | 15.3% | 变量追踪丢失 |
| Claude 3.5 Sonnet | 4.8% | 11.5% | 26.3% | 14.2% | 中间步骤幻觉 |
| Gemini 1.5 Pro | 6.1% | 14.3% | 32.1% | 17.5% | 代数属性误用 |
| Llama 3 70B | 9.4% | 21.6% | 45.2% | 25.4% | 中间步骤幻觉 |
| Mistral Large | 7.8% | 18.9% | 39.8% | 22.2% | 变量追踪丢失 |
| Qwen2.5 72B | 8.5% | 19.2% | 41.5% | 23.1% | 维度不匹配 |
| DeepSeek-V2 | 10.1% | 23.4% | 48.9% | 27.5% | 代数属性误用 |
| Mixtral 8x22B | 11.3% | 25.7% | 52.3% | 29.8% | 中间步骤幻觉 |
| Phi-3 Medium | 12.6% | 28.1% | 56.7% | 32.5% | 变量追踪丢失 |
| Falcon 2 180B | 14.2% | 31.5% | 61.4% | 35.7% | 代数属性误用 |

数据要点： 从 3x3 到 5x5 的灾难性错误爆炸——表现最差的模型失败率增加了 5 倍——揭示了当前架构缺乏随问题复杂度扩展的组合推理能力。主要失败类型因模型而异，表明没有单一的架构修复方案能解决问题；GPT-4o 中的变量追踪丢失和 Claude 3.5 中的中间步骤幻觉指向不同的根本原因。

LinAlg-Bench 的 GitHub 仓库（linalg-bench/linalg-bench，2025 年 5 月发布，已获 2,100+ 星标）提供了完整的诊断流水线、问题集和评估脚本。研究人员可以复现结果，并将基准扩展到更大矩阵或其他数学领域。

关键参与者与案例研究

测试的 10 款模型代表了当前 AI 发展的全谱系。OpenAI 的 GPT-4o、Anthropic 的 Claude 3.5 Sonnet 和 Google 的 Gemini 1.5 Pro 是专有领导者，而 Meta 的 Llama 3、Mistral AI 的 Mistral Large、阿里巴巴的 Qwen2.5、DeepSeek 的 DeepSeek-V2 等则代表了开放权重前沿。该基准揭示，专有模型的表现显著优于开放权重模型——但即使是最好的 Claude 3.5 Sonnet，整体失败率也达到 14.2%，在 5x5 矩阵上更是高达 26.3%。

对 Claude 3.5 Sonnet 失败案例的研究具有启发性。在一个 4x4 行列式问题上，该模型正确计算了余子式展开的前两步，但随后幻觉出一个不存在的简化规则，最终答案相差一个因子 2。这种中间步骤幻觉模式占其失败的 41%。对于 GPT-4o，变量追踪丢失占主导——在一个 5x5 矩阵乘法问题上，它正确计算了乘积的第一行，但随后混淆了正在处理的行，重复计算同一行三次。

| 模型 | 训练计算量（估计 FLOPs） | 参数数量 | 上下文窗口 | LinAlg-Bench 得分 | MMLU 得分 |
|---|---|---|---|---|---|
| GPT-4o | 2e25 | ~200B（估计） | 128K | 84.7% | 88.7 |
| Claude 3.5 Sonnet | 1.5e25 | — | 200K | 85.8% | 88.3 |
| Gemini 1.5 Pro | 3e25 | — | 1M | 82.5% | 87.5 |
| Llama 3 70B | 1.2e24 | 70B | 8K | 74.6% | 82.0 |
| Mistral Large | 8e23 | 123B | 32K | 77.8% | 84.0 |

时间归档

常见问题

这次模型发布“LinAlg-Bench Reveals Structural Fractures in LLM Mathematical Reasoning”的核心内容是什么？

LinAlg-Bench, a rigorous new benchmark for mathematical reasoning, has delivered a sobering verdict on the current generation of large language models. By testing 10 frontier model…

从“LinAlg-Bench vs GSM8K comparison”看，这个模型发布为什么重要？

LinAlg-Bench represents a paradigm shift in AI evaluation, moving from aggregate accuracy scores to granular failure diagnosis. The benchmark's core innovation is its three-stage automated diagnostic pipeline, which proc…

围绕“how to fix LLM variable tracking loss”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

LinAlg-Bench 揭示 LLM 数学推理中的结构性断裂

技术深度解析

关键参与者与案例研究

更多来自 arXiv cs.AI

时间归档

延伸阅读

常见问题