一句提示词解锁LLM创造力:简单策略攻克数学难题,颠覆AI推理范式

Hacker News April 2026
来源:Hacker Newsprompt engineeringAI reasoning归档:April 2026
大语言模型(LLM)成功破解了困扰数学家数十年的埃尔德什难题,秘诀并非更大规模或更多数据,而是一种要求模型寻找“非平凡、创造性元素”的提示策略。核心创新在于一种名为“文件夹语言”的抽象符号系统,它迫使模型进行真正的推理,挑战了“创造力是模型天花板”的传统认知。

一项在AI研究界引发广泛关注的最新进展显示,大语言模型成功攻克了埃尔德什问题——一个以极端难度著称、数十年来令人类数学家束手无策的数学猜想。这一突破并非来自更大的模型、更多的训练数据或全新的架构,而是源于一个看似简单的改变:研究人员引入了一种全新的提示策略,明确指示模型在解决方案中寻找“非平凡、创造性且新颖的元素”。这一指令将模型的行为从默认的统计模式匹配,转变为一种探索性推理模式。更令人瞩目的是“文件夹语言”的引入——一种结构化的符号抽象系统,将问题编码为层级化符号,迫使模型在受约束的符号领域内进行推理,从而剥离自然语言的噪声,防止其依赖训练语料中的记忆文本模式。实验数据显示,该方法不仅成功解决了埃尔德什问题,还将幻觉率从标准提示的38%降至9%,同时实现了更高的令牌效率。这项研究由独立研究小组完成,其负责人Elena Voss博士表示:“模型早已具备推理能力,我们只需学会用它的语言说话。”

技术深度解析

这一突破的核心不在于模型架构,而在于输入表征方式。传统上,使用LLM解决数学问题的方法是直接输入自然语言的问题描述,期望模型给出直接答案。这会触发模型最强的能力:统计文本补全。模型基于训练数据预测最可能的令牌序列,而对于一个困难的数学问题,这往往通向死胡同或产生幻觉。

提示策略

研究人员采用了一种元提示(meta-prompt),明确指示模型优先考虑“非平凡、创造性且新颖的元素”。这是一种“引导”形式,将模型的隐含目标从“最小化困惑度”转变为“探索低概率但高价值的令牌序列”。在实践中,这意味着模型被鼓励偏离最可能的路径,考虑替代的表述、类比或结构重组。这类似于人类数学家被告知:“不要只是解题,要找到一个优雅、出人意料的解法。”

文件夹语言:一种新的抽象层

最具创新性的组件是“文件夹语言”。这是一种形式化的符号系统,将问题抽象为一组结构化的层级化符号。例如,一个关于住房可负担性的问题可以被编码为一组变量(收入、位置、供应)和运算符(约束、权衡、反馈循环)。模型接收的不是英文问题,而是文件夹语言表征。这迫使模型在受约束的符号领域内进行推理,剥离自然语言的噪声,防止其依赖训练语料中的记忆文本模式。

为何有效

LLM本质上是下一个令牌预测器。当用英文提问数学问题时,它们基于数十亿个数学问题和解答示例来预测下一个令牌。这往往导致听起来合理但错误的答案。文件夹语言打破了这一模式。模型看到的文件夹语言序列示例要少得多,因此无法依赖统计模仿。它必须进行一种内部搜索——一些研究人员称之为“系统2”推理——以在符号空间中导航。而要求创造性的提示进一步将这种搜索偏向于新颖的组合。

相关开源工作

虽然具体的文件夹语言实现尚未公开,但GitHub上已有相关工作。'Tree of Thoughts' (ToT) 仓库(超过10,000星)实现了类似的想法,引导LLM通过多个推理路径。'Chain-of-Thought' (CoT) 提示仓库(超过5,000星)展示了结构化提示如何改善推理。文件夹语言方法可以被视为CoT的一种极端形式,其中“思考”不是用自然语言,而是用形式化的符号系统。

数据表格:性能对比

| 方法 | 是否解决埃尔德什问题? | 平均推理步数 | 令牌效率(每万令牌解决方案数) | 幻觉率 |
|---|---|---|---|---|
| 标准提示 | 否 | 3.2 | 0.4 | 38% |
| Chain-of-Thought | 否 | 8.1 | 1.1 | 22% |
| Tree-of-Thoughts | 部分解决 | 15.4 | 0.8 | 18% |
| 文件夹语言 + 创造性提示 | | 22.7 | 2.3 | 9% |

数据要点: 文件夹语言+创造性提示组合不仅解决了问题,而且以更高的令牌效率和显著更低的幻觉率实现。这表明该方法并非偶然,而是推理质量的系统性提升。

关键参与者与案例研究

研究团队

这项研究归功于一个此前在神经符号AI领域发表过论文的小型独立研究小组。其首席研究员Elena Voss博士拥有数学逻辑和计算语言学背景。她公开表示:“模型早已知道如何推理;我们只需要用它的语言说话。”该小组有挑战规模扩展正统观念的历史。他们此前关于“零样本推理的语言约束”的论文(2024年)显示,简单的句法变化可以将逻辑推理能力提升40%。

竞争方法

| 方法 | 倡导者 | 关键优势 | 关键劣势 |
|---|---|---|---|
| 规模扩展定律 | OpenAI, Anthropic | 随算力提升可靠改进 | 收益递减,成本巨大 |
| 基于人类反馈的强化学习(RLHF) | OpenAI, Google | 使输出与人类偏好对齐 | 可能抑制创造力,成本高昂 |
| 工具增强型LLM(如Code Interpreter) | OpenAI, Microsoft | 外部验证 | 延迟,依赖外部系统 |
| 文件夹语言 + 创造性提示 | Voss et al. | 解锁潜在推理能力,低成本 | 需要手动设计抽象,尚未自动化 |

数据要点: 文件夹语言方法是唯一无需额外训练即可解决埃尔德什问题的方法。

更多来自 Hacker News

UseMoney AI:悄然革新印度散户投资的AI副驾驶UseMoney AI已悄然成为印度金融科技领域一个低调但重要的入局者。这款工具专为印度蓬勃发展的散户投资者群体设计,可连接用户的券商账户,并运用大语言模型对其投资组合进行全面的“健康检查”。与仅推荐标准投资组合的传统智能投顾不同,UseMCtxbrew:让大模型真正读懂代码库的开源协议AINews 发现当前 AI 辅助编程生态中存在一个关键盲区:大语言模型(LLM)因缺乏关于所调用库的精确、最新上下文,频繁生成错误或荒谬的代码。新开源的 Ctxbrew 并非通过让模型更聪明来解决这一问题,而是让软件包“说”一种标准语言。AI锻造维京魔法剑:机器创造力如何暴露文化盲区最近一项实验中,一位开发者要求AI设计一把“维京魔法剑”,结果成为生成式模型在承担文化特定创意任务时优缺点的典型案例。AI的输出——一把装饰着龙头、符文、造型夸张且带有奇幻色彩的剑——视觉上连贯,但历史与考古学上极不准确。AINews分析显查看来源专题页Hacker News 已收录 2498 篇文章

相关专题

prompt engineering54 篇相关文章AI reasoning19 篇相关文章

时间归档

April 20262531 篇已发布文章

延伸阅读

业余数学家借助大语言模型攻克六十年难题:AI 作为推理伙伴的崛起在一场人机协作的里程碑式演示中,一位非专业数学爱好者通过与大语言模型进行迭代式对话推理,成功解决了一个困扰学界六十年的组合学难题。这一突破将 LLM 从答案引擎重新定义为认知伙伴,为科学发现开辟了新前沿。GPT-5.5早期测试曝光:推理与自主代码生成能力实现质的飞跃AINews独家获得GPT-5.5早期测试权限,结果令人震撼。该模型在多步骤推理、长上下文记忆以及自主调试与优化自身代码方面实现了重大突破——正从代码补全工具迈向真正的自主软件工程师。GPT-5.5 重写规则:提示工程进入“共创”时代一份泄露的 GPT-5.5 提示工程指南,揭示了人机交互的根本性变革。该模型全新的多线程推理能力,要求用户摒弃简单指令,转向结构化、协作式的提示方式。这标志着“指令-响应”时代的终结与“设计-共创”时代的开启。GPT-5.5 跳过 ARC-AGI-3:沉默背后,AI 进步的真正信号OpenAI 发布 GPT-5.5,却未公布其 ARC-AGI-3 基准测试结果——这项测试被广泛视为衡量真正机器智能的最严格标准。这一遗漏并非技术疏忽,而是一个战略信号,质疑了模型认知上限,并反映了行业对“进步”定义的悄然重塑。

常见问题

这次模型发布“How a Simple Prompt Strategy Unlocked LLM Creativity to Solve a Hard Math Problem”的核心内容是什么?

In a development that has sent ripples through the AI research community, a large language model has successfully tackled the Erdős problem—a notoriously difficult mathematical con…

从“LLM creativity prompt engineering”看,这个模型发布为什么重要?

The core of this breakthrough lies not in the model's architecture but in the input representation. The standard approach to using LLMs for math problems involves feeding the problem statement in natural language and exp…

围绕“folder language AI reasoning”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。