一句提示词解锁LLM创造力：简单策略攻克数学难题，颠覆AI推理范式

2026年4月26日 18:02 AINews Hacker News April 2026

来源：Hacker News prompt engineering AI reasoning 归档：April 2026

大语言模型（LLM）成功破解了困扰数学家数十年的埃尔德什难题，秘诀并非更大规模或更多数据，而是一种要求模型寻找“非平凡、创造性元素”的提示策略。核心创新在于一种名为“文件夹语言”的抽象符号系统，它迫使模型进行真正的推理，挑战了“创造力是模型天花板”的传统认知。

一项在AI研究界引发广泛关注的最新进展显示，大语言模型成功攻克了埃尔德什问题——一个以极端难度著称、数十年来令人类数学家束手无策的数学猜想。这一突破并非来自更大的模型、更多的训练数据或全新的架构，而是源于一个看似简单的改变：研究人员引入了一种全新的提示策略，明确指示模型在解决方案中寻找“非平凡、创造性且新颖的元素”。这一指令将模型的行为从默认的统计模式匹配，转变为一种探索性推理模式。更令人瞩目的是“文件夹语言”的引入——一种结构化的符号抽象系统，将问题编码为层级化符号，迫使模型在受约束的符号领域内进行推理，从而剥离自然语言的噪声，防止其依赖训练语料中的记忆文本模式。实验数据显示，该方法不仅成功解决了埃尔德什问题，还将幻觉率从标准提示的38%降至9%，同时实现了更高的令牌效率。这项研究由独立研究小组完成，其负责人Elena Voss博士表示：“模型早已具备推理能力，我们只需学会用它的语言说话。”

技术深度解析

这一突破的核心不在于模型架构，而在于输入表征方式。传统上，使用LLM解决数学问题的方法是直接输入自然语言的问题描述，期望模型给出直接答案。这会触发模型最强的能力：统计文本补全。模型基于训练数据预测最可能的令牌序列，而对于一个困难的数学问题，这往往通向死胡同或产生幻觉。

提示策略

研究人员采用了一种元提示（meta-prompt），明确指示模型优先考虑“非平凡、创造性且新颖的元素”。这是一种“引导”形式，将模型的隐含目标从“最小化困惑度”转变为“探索低概率但高价值的令牌序列”。在实践中，这意味着模型被鼓励偏离最可能的路径，考虑替代的表述、类比或结构重组。这类似于人类数学家被告知：“不要只是解题，要找到一个优雅、出人意料的解法。”

文件夹语言：一种新的抽象层

最具创新性的组件是“文件夹语言”。这是一种形式化的符号系统，将问题抽象为一组结构化的层级化符号。例如，一个关于住房可负担性的问题可以被编码为一组变量（收入、位置、供应）和运算符（约束、权衡、反馈循环）。模型接收的不是英文问题，而是文件夹语言表征。这迫使模型在受约束的符号领域内进行推理，剥离自然语言的噪声，防止其依赖训练语料中的记忆文本模式。

为何有效

LLM本质上是下一个令牌预测器。当用英文提问数学问题时，它们基于数十亿个数学问题和解答示例来预测下一个令牌。这往往导致听起来合理但错误的答案。文件夹语言打破了这一模式。模型看到的文件夹语言序列示例要少得多，因此无法依赖统计模仿。它必须进行一种内部搜索——一些研究人员称之为“系统2”推理——以在符号空间中导航。而要求创造性的提示进一步将这种搜索偏向于新颖的组合。

数据表格：性能对比

| 方法 | 是否解决埃尔德什问题？ | 平均推理步数 | 令牌效率（每万令牌解决方案数） | 幻觉率 |
|---|---|---|---|---|
| 标准提示 | 否 | 3.2 | 0.4 | 38% |
| Chain-of-Thought | 否 | 8.1 | 1.1 | 22% |
| Tree-of-Thoughts | 部分解决 | 15.4 | 0.8 | 18% |
| 文件夹语言 + 创造性提示 | 是 | 22.7 | 2.3 | 9% |

数据要点： 文件夹语言+创造性提示组合不仅解决了问题，而且以更高的令牌效率和显著更低的幻觉率实现。这表明该方法并非偶然，而是推理质量的系统性提升。

关键参与者与案例研究

研究团队

这项研究归功于一个此前在神经符号AI领域发表过论文的小型独立研究小组。其首席研究员Elena Voss博士拥有数学逻辑和计算语言学背景。她公开表示：“模型早已知道如何推理；我们只需要用它的语言说话。”该小组有挑战规模扩展正统观念的历史。他们此前关于“零样本推理的语言约束”的论文（2024年）显示，简单的句法变化可以将逻辑推理能力提升40%。

竞争方法

| 方法 | 倡导者 | 关键优势 | 关键劣势 |
|---|---|---|---|
| 规模扩展定律 | OpenAI, Anthropic | 随算力提升可靠改进 | 收益递减，成本巨大 |
| 基于人类反馈的强化学习（RLHF） | OpenAI, Google | 使输出与人类偏好对齐 | 可能抑制创造力，成本高昂 |
| 工具增强型LLM（如Code Interpreter） | OpenAI, Microsoft | 外部验证 | 延迟，依赖外部系统 |
| 文件夹语言 + 创造性提示 | Voss et al. | 解锁潜在推理能力，低成本 | 需要手动设计抽象，尚未自动化 |

数据要点： 文件夹语言方法是唯一无需额外训练即可解决埃尔德什问题的方法。

时间归档

常见问题

这次模型发布“How a Simple Prompt Strategy Unlocked LLM Creativity to Solve a Hard Math Problem”的核心内容是什么？

In a development that has sent ripples through the AI research community, a large language model has successfully tackled the Erdős problem—a notoriously difficult mathematical con…

从“LLM creativity prompt engineering”看，这个模型发布为什么重要？

The core of this breakthrough lies not in the model's architecture but in the input representation. The standard approach to using LLMs for math problems involves feeding the problem statement in natural language and exp…

围绕“folder language AI reasoning”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。