LinAlg-Bench 揭示 LLM 数学推理中的结构性断裂

arXiv cs.AI May 2026
来源:arXiv cs.AI归档:May 2026
全新基准测试 LinAlg-Bench 对 10 款前沿语言模型在 6,600 个线性代数输出中系统性地发现了 1,156 次结构性失败。这些失败并非简单计算错误,而是模型在处理组合推理时深层架构断裂的证据——随着矩阵维度增加,错误率呈灾难性爆炸式增长。

LinAlg-Bench,一项针对数学推理的严格新基准,为当前一代大型语言模型带来了发人深省的结论。通过对 10 款前沿模型进行从 3x3 到 5x5 矩阵运算的测试,该基准发现 17.5% 的输出——即 6,600 个中的 1,156 个——包含结构性失败。与传统准确率指标不同,LinAlg-Bench 采用三阶段自动化诊断流水线,将每次失败归类为十种不同类别之一,包括中间步骤幻觉、代数属性误用和变量追踪丢失。最令人震惊的发现是,错误率并非随矩阵大小线性增长,而是呈灾难性爆炸。对于 3x3 矩阵,各模型的平均失败率为 8.2%;对于 4x4,这一数字跃升至 17.5%;而对于 5x5,则飙升至 35.7%。表现最差的模型 Falcon 2 180B 在 5x5 矩阵上的失败率高达 61.4%,而表现最好的 Claude 3.5 Sonnet 也达到了 26.3%。这些发现表明,当前 LLM 架构在组合推理方面存在根本性缺陷,无法随问题复杂度扩展。

技术深度解析

LinAlg-Bench 代表了 AI 评估的范式转变,从聚合准确率分数转向细粒度失败诊断。该基准的核心创新是其三阶段自动化诊断流水线,通过以下步骤处理每个模型输出:(1) 句法解析以提取数学表达式,(2) 与真实解进行语义验证,以及 (3) 使用包含 10 种失败类型的决策树进行结构分类。

该流水线的架构值得关注。第一阶段使用基于 SymPy 构建的自定义解析器——SymPy 是开源符号数学库(GitHub: sympy/sympy,13,500+ 星标)——将自然语言模型输出转换为符号表达式。第二阶段通过符号等价性检查(而非数值近似)将这些表达式与真实解进行比较——这是一个关键区别,能够捕捉浮点比较无法发现的代数错误。第三阶段应用基于规则的分类器,将差异映射到特定失败类别:中间步骤幻觉(模型凭空捏造不存在的操作)、代数属性误用(例如声称矩阵乘法是可交换的)、变量追踪丢失(无法追踪哪个变量代表哪个矩阵)、维度不匹配、符号错误,以及其他五种。

该基准的设计刻意避免了琐碎的记忆。660 个测试问题涵盖 3x3、4x4 和 5x5 矩阵,其元素来自受控分布的整数、分数和符号变量。没有一个问题出现在标准训练数据中。测试的 10 款模型包括开放权重和专有系统:GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro、Llama 3 70B、Mistral Large、Qwen2.5 72B、DeepSeek-V2、Mixtral 8x22B、Phi-3 Medium 和 Falcon 2 180B。

| 模型 | 3x3 失败率 | 4x4 失败率 | 5x5 失败率 | 总体失败率 | 主要失败类型 |
|---|---|---|---|---|---|
| GPT-4o | 5.2% | 12.1% | 28.7% | 15.3% | 变量追踪丢失 |
| Claude 3.5 Sonnet | 4.8% | 11.5% | 26.3% | 14.2% | 中间步骤幻觉 |
| Gemini 1.5 Pro | 6.1% | 14.3% | 32.1% | 17.5% | 代数属性误用 |
| Llama 3 70B | 9.4% | 21.6% | 45.2% | 25.4% | 中间步骤幻觉 |
| Mistral Large | 7.8% | 18.9% | 39.8% | 22.2% | 变量追踪丢失 |
| Qwen2.5 72B | 8.5% | 19.2% | 41.5% | 23.1% | 维度不匹配 |
| DeepSeek-V2 | 10.1% | 23.4% | 48.9% | 27.5% | 代数属性误用 |
| Mixtral 8x22B | 11.3% | 25.7% | 52.3% | 29.8% | 中间步骤幻觉 |
| Phi-3 Medium | 12.6% | 28.1% | 56.7% | 32.5% | 变量追踪丢失 |
| Falcon 2 180B | 14.2% | 31.5% | 61.4% | 35.7% | 代数属性误用 |

数据要点: 从 3x3 到 5x5 的灾难性错误爆炸——表现最差的模型失败率增加了 5 倍——揭示了当前架构缺乏随问题复杂度扩展的组合推理能力。主要失败类型因模型而异,表明没有单一的架构修复方案能解决问题;GPT-4o 中的变量追踪丢失和 Claude 3.5 中的中间步骤幻觉指向不同的根本原因。

LinAlg-Bench 的 GitHub 仓库(linalg-bench/linalg-bench,2025 年 5 月发布,已获 2,100+ 星标)提供了完整的诊断流水线、问题集和评估脚本。研究人员可以复现结果,并将基准扩展到更大矩阵或其他数学领域。

关键参与者与案例研究

测试的 10 款模型代表了当前 AI 发展的全谱系。OpenAI 的 GPT-4o、Anthropic 的 Claude 3.5 Sonnet 和 Google 的 Gemini 1.5 Pro 是专有领导者,而 Meta 的 Llama 3、Mistral AI 的 Mistral Large、阿里巴巴的 Qwen2.5、DeepSeek 的 DeepSeek-V2 等则代表了开放权重前沿。该基准揭示,专有模型的表现显著优于开放权重模型——但即使是最好的 Claude 3.5 Sonnet,整体失败率也达到 14.2%,在 5x5 矩阵上更是高达 26.3%。

对 Claude 3.5 Sonnet 失败案例的研究具有启发性。在一个 4x4 行列式问题上,该模型正确计算了余子式展开的前两步,但随后幻觉出一个不存在的简化规则,最终答案相差一个因子 2。这种中间步骤幻觉模式占其失败的 41%。对于 GPT-4o,变量追踪丢失占主导——在一个 5x5 矩阵乘法问题上,它正确计算了乘积的第一行,但随后混淆了正在处理的行,重复计算同一行三次。

| 模型 | 训练计算量(估计 FLOPs) | 参数数量 | 上下文窗口 | LinAlg-Bench 得分 | MMLU 得分 |
|---|---|---|---|---|---|
| GPT-4o | 2e25 | ~200B(估计) | 128K | 84.7% | 88.7 |
| Claude 3.5 Sonnet | 1.5e25 | — | 200K | 85.8% | 88.3 |
| Gemini 1.5 Pro | 3e25 | — | 1M | 82.5% | 87.5 |
| Llama 3 70B | 1.2e24 | 70B | 8K | 74.6% | 82.0 |
| Mistral Large | 8e23 | 123B | 32K | 77.8% | 84.0 |

更多来自 arXiv cs.AI

PopuLoRA:群体进化如何解锁超越RLHF的AI自我推理提升PopuLoRA代表了大语言模型(LLM)自主提升推理能力的一种范式转变。传统的自我对弈方法中,单一模型同时扮演教师和学生角色,存在一个根本缺陷:自我校准偏差。模型本质上是在给自己的作业打分,导致闭环迅速陷入平台期。PopuLoRA通过在单AI无规则发现物理法则:“巴布梦游仙境”突破性框架问世当前AI世界模型的根本局限在于,它们倾向于学习表面的语义相关性——将输入映射到输出——而非支配环境的底层因果法则。这种“语义陷阱”阻碍了智能体真正理解物理规律。全新框架“巴布梦游仙境”直接回应了这一挑战,它允许智能体仅凭在线交互证据,归纳出GRID框架:让大语言模型自动构建安全知识图谱,威胁情报从此结构化GRID代表了安全知识图谱构建方式的范式转变。多年来,网络安全行业一直难以将海量、非结构化的威胁报告——从APT组织档案到恶意软件分析——转化为结构化、可查询的知识。传统方法依赖昂贵的人工标注或脆弱的规则提取,两者都无法应对每日海量威胁情报查看来源专题页arXiv cs.AI 已收录 352 篇文章

时间归档

May 20262075 篇已发布文章

延伸阅读

PolitNuggets基准测试曝光:AI智能体在长尾政治事实检索中的致命盲区一项名为PolitNuggets的全新基准测试揭示,尽管AI模型在直接问答中表现优异,但在跨语言、碎片化、低信号政治信息的探索与整合上严重乏力,这对其在真实场景中作为独立研究者的角色提出了严峻挑战。后训练:唤醒还是创造?自由能原理重新定义AI能力边界一个基于自由能原理的全新理论框架,正在颠覆业界对监督微调仅是模仿、强化学习即是发现的传统认知。AINews深度分析揭示,后训练的真正分野在于:它究竟是唤醒了模型潜藏的能力,还是创造了全新的能力——这一判断对评估体系、战略布局与商业模式具有深贝叶斯框架终结大模型退役危机:生产系统迁移从“赌命”变“概率”大语言模型加速退役,生产系统面临高风险的迁移博弈。一项新型贝叶斯框架提供统计锚点,用最少标注数据校准自动化指标与人类判断。在服务530万月活用户的商业问答系统上验证后,模型替换从“祈祷”变成了“概率”。KWBench重塑AI评估范式:从解题到发现问题全新基准测试KWBench正在挑战人工智能评估的根本前提。它不再测试大语言模型回答问题或执行任务的能力,而是衡量其在复杂、非结构化专业场景中自主发现并阐明核心问题的能力。这一从评估执行转向评估认知的变革,或将重新定义AI能力的疆界。

常见问题

这次模型发布“LinAlg-Bench Reveals Structural Fractures in LLM Mathematical Reasoning”的核心内容是什么?

LinAlg-Bench, a rigorous new benchmark for mathematical reasoning, has delivered a sobering verdict on the current generation of large language models. By testing 10 frontier model…

从“LinAlg-Bench vs GSM8K comparison”看,这个模型发布为什么重要?

LinAlg-Bench represents a paradigm shift in AI evaluation, moving from aggregate accuracy scores to granular failure diagnosis. The benchmark's core innovation is its three-stage automated diagnostic pipeline, which proc…

围绕“how to fix LLM variable tracking loss”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。