技术深度解析
LinAlg-Bench 代表了 AI 评估的范式转变,从聚合准确率分数转向细粒度失败诊断。该基准的核心创新是其三阶段自动化诊断流水线,通过以下步骤处理每个模型输出:(1) 句法解析以提取数学表达式,(2) 与真实解进行语义验证,以及 (3) 使用包含 10 种失败类型的决策树进行结构分类。
该流水线的架构值得关注。第一阶段使用基于 SymPy 构建的自定义解析器——SymPy 是开源符号数学库(GitHub: sympy/sympy,13,500+ 星标)——将自然语言模型输出转换为符号表达式。第二阶段通过符号等价性检查(而非数值近似)将这些表达式与真实解进行比较——这是一个关键区别,能够捕捉浮点比较无法发现的代数错误。第三阶段应用基于规则的分类器,将差异映射到特定失败类别:中间步骤幻觉(模型凭空捏造不存在的操作)、代数属性误用(例如声称矩阵乘法是可交换的)、变量追踪丢失(无法追踪哪个变量代表哪个矩阵)、维度不匹配、符号错误,以及其他五种。
该基准的设计刻意避免了琐碎的记忆。660 个测试问题涵盖 3x3、4x4 和 5x5 矩阵,其元素来自受控分布的整数、分数和符号变量。没有一个问题出现在标准训练数据中。测试的 10 款模型包括开放权重和专有系统:GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro、Llama 3 70B、Mistral Large、Qwen2.5 72B、DeepSeek-V2、Mixtral 8x22B、Phi-3 Medium 和 Falcon 2 180B。
| 模型 | 3x3 失败率 | 4x4 失败率 | 5x5 失败率 | 总体失败率 | 主要失败类型 |
|---|---|---|---|---|---|
| GPT-4o | 5.2% | 12.1% | 28.7% | 15.3% | 变量追踪丢失 |
| Claude 3.5 Sonnet | 4.8% | 11.5% | 26.3% | 14.2% | 中间步骤幻觉 |
| Gemini 1.5 Pro | 6.1% | 14.3% | 32.1% | 17.5% | 代数属性误用 |
| Llama 3 70B | 9.4% | 21.6% | 45.2% | 25.4% | 中间步骤幻觉 |
| Mistral Large | 7.8% | 18.9% | 39.8% | 22.2% | 变量追踪丢失 |
| Qwen2.5 72B | 8.5% | 19.2% | 41.5% | 23.1% | 维度不匹配 |
| DeepSeek-V2 | 10.1% | 23.4% | 48.9% | 27.5% | 代数属性误用 |
| Mixtral 8x22B | 11.3% | 25.7% | 52.3% | 29.8% | 中间步骤幻觉 |
| Phi-3 Medium | 12.6% | 28.1% | 56.7% | 32.5% | 变量追踪丢失 |
| Falcon 2 180B | 14.2% | 31.5% | 61.4% | 35.7% | 代数属性误用 |
数据要点: 从 3x3 到 5x5 的灾难性错误爆炸——表现最差的模型失败率增加了 5 倍——揭示了当前架构缺乏随问题复杂度扩展的组合推理能力。主要失败类型因模型而异,表明没有单一的架构修复方案能解决问题;GPT-4o 中的变量追踪丢失和 Claude 3.5 中的中间步骤幻觉指向不同的根本原因。
LinAlg-Bench 的 GitHub 仓库(linalg-bench/linalg-bench,2025 年 5 月发布,已获 2,100+ 星标)提供了完整的诊断流水线、问题集和评估脚本。研究人员可以复现结果,并将基准扩展到更大矩阵或其他数学领域。
关键参与者与案例研究
测试的 10 款模型代表了当前 AI 发展的全谱系。OpenAI 的 GPT-4o、Anthropic 的 Claude 3.5 Sonnet 和 Google 的 Gemini 1.5 Pro 是专有领导者,而 Meta 的 Llama 3、Mistral AI 的 Mistral Large、阿里巴巴的 Qwen2.5、DeepSeek 的 DeepSeek-V2 等则代表了开放权重前沿。该基准揭示,专有模型的表现显著优于开放权重模型——但即使是最好的 Claude 3.5 Sonnet,整体失败率也达到 14.2%,在 5x5 矩阵上更是高达 26.3%。
对 Claude 3.5 Sonnet 失败案例的研究具有启发性。在一个 4x4 行列式问题上,该模型正确计算了余子式展开的前两步,但随后幻觉出一个不存在的简化规则,最终答案相差一个因子 2。这种中间步骤幻觉模式占其失败的 41%。对于 GPT-4o,变量追踪丢失占主导——在一个 5x5 矩阵乘法问题上,它正确计算了乘积的第一行,但随后混淆了正在处理的行,重复计算同一行三次。
| 模型 | 训练计算量(估计 FLOPs) | 参数数量 | 上下文窗口 | LinAlg-Bench 得分 | MMLU 得分 |
|---|---|---|---|---|---|
| GPT-4o | 2e25 | ~200B(估计) | 128K | 84.7% | 88.7 |
| Claude 3.5 Sonnet | 1.5e25 | — | 200K | 85.8% | 88.3 |
| Gemini 1.5 Pro | 3e25 | — | 1M | 82.5% | 87.5 |
| Llama 3 70B | 1.2e24 | 70B | 8K | 74.6% | 82.0 |
| Mistral Large | 8e23 | 123B | 32K | 77.8% | 84.0 |