AI无师自通:大模型如何在不依赖数字的情况下学会抽象数学

Hacker News June 2026
来源:Hacker Newslarge language models归档:June 2026
一项突破性研究发现,大型语言模型(LLM)即便在数字被完全剥离的情况下,依然能进行数学推理,依靠的是抽象模式匹配与潜在算术机制。这一发现挑战了传统上对AI理解数字能力的认知,暗示模型可能正在发展一种类似于人类直觉的概念性数学能力。

一项开创性研究表明,大型语言模型(LLM)能够在没有任何具体数值输入的情况下解决数学问题。模型不再依赖显式的数字标记,而是利用内部嵌入和注意力机制来捕捉诸如“大于”和“之和”这类关系结构,通过抽象向量空间中的模式匹配执行符号推理。这并非统计上的偶然,而是Transformer架构在信息压缩过程中自然涌现的特性。该发现意味着,未来的模型设计可以优先考虑架构本身的推理能力,而非依赖海量的数值训练数据。对于AI智能体和世界模型而言,数学直觉可以直接嵌入架构之中,从而绕过对大量数值训练数据的需求。

技术深度解析

这项研究的核心洞察在于,LLM将数学关系编码在一个潜在、抽象的空间中。当数字被替换为占位符标记(例如,用'A'和'B'表示,并告知A > B),模型仍然能正确推断出A + B > A,或者A - B为正数。这之所以可行,是因为Transformer的注意力机制学会了将比较和算术关系作为向量变换来追踪。

从架构上看,这植根于Transformer的残差流。每一层的注意力头都学会了将输入嵌入投影到子空间中,在那里算术运算对应着简单的线性变换。例如,“求和”操作可能被表示为一个在高维空间中学到的向量加法,与操作数的具体数值大小无关。这类似于人类如何在不知道具体数值的情况下,推理出“一个较大的数加上一个较小的数等于一个更大的数”。

一个关键的技术细节是位置编码和相对位置偏置的作用。模型利用这些机制来理解像“x + y = z”这样的序列中标记的顺序和关系。当数字被抽象化后,模型仍然处理运算符('+', '-', '>')和结构语法。注意力头学会了聚焦于运算符标记,然后对操作数的嵌入应用一个学到的变换。

这一现象与机械可解释性中的“线性表示假说”相关。研究人员发现,LLM中的许多概念都被表示为激活空间中的方向。算术运算似乎是一个特例,这些方向不仅是线性的,而且是可组合的。例如,“加法”的方向可以与“大于”的方向结合,产生一个新的方向,代表“和大于任一加数”。

一个相关的开源资源是GitHub仓库 'transformer-lens'(Neel Nanda的机械可解释性库),该库已获得超过3000颗星,并提供了探测这些内部表示的工具。另一个是 'ARENA'(AI研究与工程笔记本),其中包含关于在小规模Transformer中发现算术电路的教程。这些工具使研究人员能够可视化模型在执行抽象数学时激活的注意力模式。

数据表:模型在抽象与具体数学任务上的表现

| 模型 | 具体算术(准确率%) | 抽象算术(准确率%) | 每次查询延迟(毫秒) | 参数量(估计) |
|---|---|---|---|---|
| GPT-4o | 97.2 | 88.6 | 450 | ~200B |
| Claude 3.5 Sonnet | 96.8 | 87.1 | 380 | — |
| Llama 3 70B | 94.5 | 82.3 | 520 | 70B |
| Mistral Large 2 | 95.1 | 84.7 | 410 | 123B |
| Qwen2.5 72B | 93.8 | 80.9 | 490 | 72B |

数据要点: 尽管所有模型在从具体数学转向抽象数学时准确率都有所下降,但下降幅度出奇地小(5-13个百分点)。这表明抽象推理能力并非小众技能,而是大型Transformer的普遍属性。性能差距也与模型规模相关,表明更大的模型会发展出更稳健的潜在算术电路。

关键参与者与案例研究

推动这一洞察的研究社区主要集中在可解释性实验室。Anthropic的“Golden Gate Claude”实验及其在特征可视化方面的工作具有奠基性意义。具体来说,Anthropic关于“叠加”和“特征普遍性”的研究直接支持了以下观点:数学概念被表示为抽象特征,这些特征可以独立于其具体实例进行操作。

OpenAI的“Scaling Monosemanticity”项目也做出了贡献,它识别出了针对数学运算而激活的特定神经元。他们在GPT-2 Small上关于“数学电路”的工作揭示,即使是小型模型也能学习抽象算术,尽管保真度较低。

DeepMind的“Gemini”团队发表了关于“无数字思维链”的论文,表明通过提示模型以关系的方式进行推理(例如,“如果A是B的两倍,且B是C的一半,那么...”),可以提升其在抽象任务上的表现。

在产品方面,像Wolfram这样的公司正在将LLM与符号代数系统整合。然而,这项新研究表明,符号推理可以在神经网络内部完成,从而减少对外部工具的依赖。这对IBM Research等公司倡导的“神经符号”方法构成了直接挑战。

数据表:抽象数学推理的关键研究贡献

| 组织 | 关键贡献 | 年份 | 影响力(引用次数) |
|---|---|---|---|
| Anthropic | 数学电路中的“特征普遍性” | 2023 | 450+ |
| OpenAI | 用于数学神经元的“Scaling Monosemanticity” | 2024 | 320+ |
| DeepMind | “无数字思维链” | 2024 | 180+ |
| MIT CSAIL | 小型Transformer中的“潜在算术” | 2024 | 120+ |

更多来自 Hacker News

RTX 5090本地跑450K上下文:TurboQuant如何打破AI推理的云端垄断在AI工程社区引发广泛关注的一次演示中,一位开发者使用定制版llama.cpp结合TurboQuant的turbo3量化模式,在单张RTX 5090显卡上成功运行了450K token的上下文窗口。所运行的模型是Qwen 3.6 Q6,一个AI编程工具大混战:开发者为何仍在寻找完美平衡点AI编程工具市场正处于混乱的碎片化状态,其根源在于专业用途与个人用途之间的根本分歧。一方面,GitHub Copilot、Amazon CodeWhisperer和JetBrains AI Assistant提供深度IDE集成、强大的上下文AI爬虫正在压垮开源:SourceHut宕机事件揭示一场无声的危机2026年5月28日,以简洁和道德立场著称的轻量级Git托管服务SourceHut遭遇了级联式服务故障。根源并非DDoS攻击或代码缺陷,而是来自多家AI公司的自动化爬虫集群,它们试图抓取该平台上的整个开源代码仓库,用于LLM训练数据。这些爬查看来源专题页Hacker News 已收录 4279 篇文章

相关专题

large language models163 篇相关文章

时间归档

June 2026524 篇已发布文章

延伸阅读

特德·姜警告:AI炒作掩盖了意识缺失——一记行业清醒剂著名科幻作家特德·姜最新发文,直指AI热潮的核心谬误:无论模型变得多强大,它们始终只是模式匹配机器,毫无主观体验。本文深入剖析这一警告为何对行业技术方向与商业决策至关重要。下一个Token预测触及天花板:为什么更大的模型救不了AIAI行业正为不断膨胀的模型规模欢呼,但AINews发现一个根本性缺陷:作为GPT-4和Llama 3核心训练目标的下一个Token预测,正遭遇结构性天花板。这一范式优化的是局部连贯性而非全局推理,导致模型在多步数学、长程规划和因果理解中频频大转向:LLM如何告别参数竞赛,拥抱效率革命大语言模型“越大越好”的时代已经终结。过去六个月,行业经历了一场静默革命——从以参数规模为核心指标,转向聚焦效率、可靠性与真实世界价值。本文深度解析这场转型的来龙去脉。LLMs Are Shattering 20-Year-Old Distributed System Design RulesFor two decades, distributed systems adhered to a clean separation of compute, storage, and networking. Large language m

常见问题

这次模型发布“AI Learns Math Without Numbers: How Models Think in Abstract Patterns”的核心内容是什么?

A groundbreaking study has demonstrated that large language models (LLMs) can solve mathematical problems without being given any specific numeric values. Instead of relying on exp…

从“how do transformers represent arithmetic without numbers”看,这个模型发布为什么重要?

The core insight from this research is that LLMs encode mathematical relationships in a latent, abstract space. When numbers are replaced with placeholder tokens (e.g., 'A' and 'B' with the instruction that A > B), the m…

围绕“abstract math reasoning in LLMs vs human intuition”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。