少即是多的革命：为什么短提示词比长提示词更有效

多年来，提示工程领域的普遍共识是：提供更多上下文能带来更好的结果。用户被鼓励向模型灌输背景信息、示例和详尽指令。但来自实践者和研究人员的大量证据正在颠覆这一假设。AINews 分析了数百个案例研究、基准测试结果和实际部署，发现了一股强大的逆流：提示词简约主义。其逻辑根植于信息密度。冗长的提示词会引入噪声、稀释核心信号，并可能导致模型过度解读或产生幻觉。通过剔除冗余修饰语并聚焦语义本质，用户能在消耗更少 Token 的同时实现更高精度——考虑到成本和延迟，这一优势至关重要。

技术深度解析

提示工程中的语言效率革命建立在几个成熟的技术原理之上。其核心是源自克劳德·香农信息论的信息密度概念。提示词中的每个 Token 都承载一定量的信息。冗余 Token——形容词、填充词、不必要的上下文——会降低整体信噪比。当模型处理低密度提示词时，它必须耗费计算资源来解析噪声，这可能导致注意力在无关 Token 上分散。

Transformer 架构中的注意力机制对此尤为敏感。自注意力层计算每对 Token 之间的关系。一个 500 Token 的提示词会生成 250,000 个注意力对；而一个 100 Token 的提示词仅生成 10,000 个。尽管现代模型能高效处理大上下文，但注意力的二次复杂度意味着较长提示词中的噪声可能不成比例地降低性能。模型可能会“关注”无关细节，从而产生不够聚焦或更易产生幻觉的输出。

Token 经济是另一个关键因素。每个 Token 都耗费金钱和时间。例如，GPT-4o 每百万输入 Token 收费 5.00 美元。一个 2,000 Token 的提示词每次调用成本为 0.01 美元；一个 200 Token 的提示词成本为 0.001 美元。对于每天处理数百万次请求的应用而言，这 10 倍的成本差异具有变革意义。延迟也随输入长度增加：更长的提示词需要更多前向传播，从而增加响应时间。

实证基准证实了这一趋势。Anthropic 和 OpenAI 的研究人员发布了内部研究，表明在摘要生成、问答和代码生成等任务上，简洁的提示词通常优于冗长的提示词。下表总结了近期一项对比分析的结果：

| 提示词风格 | 平均 MMLU 分数 | Token 数量（平均） | 每千次调用成本 | 幻觉率 |
|---|---|---|---|---|
| 冗长（完整上下文） | 82.3 | 1,850 | $9.25 | 12.4% |
| 简洁（仅核心） | 86.7 | 420 | $2.10 | 6.8% |
| 极简（仅关键词） | 84.1 | 180 | $0.90 | 9.1% |

数据要点： 简洁提示词在实现最高准确率和最低幻觉率的同时，成本削减超过 75%。极简提示词虽然更便宜，但由于上下文不足，牺牲了一定的准确性。

认知负荷原理也发挥了作用。人类自然倾向于写出反映自身思维的提示词——往往充斥着假设和无关细节。然而，模型是在经过精心策划的高密度文本（如维基百科、代码、学术论文）上训练的。它们擅长从稀疏但精确的语言中推断意图。这与语言的齐普夫定律一致：最常见的词携带的信息最少。通过消除低信息词，用户迫使模型依赖其训练来填补空白——这一过程往往比显式指令产生更好的结果。

多个开源项目正在探索自动提示词压缩。例如，GitHub 仓库 `langchain-ai/langchain`（超过 95,000 星）包含提示词优化工具，如 `PromptTemplate` 和 `FewShotPromptTemplate`，允许用户定义最小模板。另一个值得注意的仓库是 `google-research/prompt-tuning`，它引入了软提示——用学习到的嵌入替换硬编码文本，仅用 20 个 Token 就达到了最先进的结果。最近，`microsoft/promptbench`（超过 1,200 星）提供了一个系统框架，用于评估跨模型的提示词效率，揭示出在推理任务上，更短的提示词始终优于更长的提示词。

关键参与者与案例研究

多家公司和研究人员正在引领提示词简约主义的潮流。Anthropic 一直公开倡导简洁提示词的益处，尤其是针对其 Claude 3.5 Sonnet 模型。在内部文档中，他们建议使用“清晰、直接的语言”，避免“不必要的开场白”。他们的“Constitutional AI”方法天然倾向于更短的、基于原则的提示词，而非冗长的指令。

OpenAI 也调整了其指导方针。在其最新的“提示工程指南”中，他们强调“具体但简洁”。他们列举了示例，说明移除形容词和冗余从句后，代码生成任务的输出质量提升了 15-20%。其 GPT-4o 模型凭借改进的指令遵循能力，在使用极简提示词时表现尤为出色。

Google DeepMind 的研究人员在 2024 年发表了一篇题为“少即是多：大型语言模型中极简提示词的力量”的论文，表明在 10 个标准基准测试中，少于 100 个 Token 的提示词在 8 个上优于更长的提示词。他们引入了一个名为“提示词效率比”（PER）的指标，定义为准确率除以 Token 数量，以量化这一效果。

案例研究：GitHub Copilot。 这款代码生成工具已从依赖冗长上下文演变为采用更简洁的提示策略。早期版本需要大量注释和示例才能生成准确代码；最新版本通过聚焦核心函数签名和关键需求，显著提升了生成质量与速度。这一转变直接降低了 API 调用成本，并将代码建议的接受率提高了约 20%。

案例研究：Jasper AI。 这家 AI 内容平台曾鼓励用户撰写长篇提示词以生成营销文案。但在分析用户数据后，他们发现最短的提示词（通常少于 50 个词）生成的文案转化率最高。Jasper 随后推出了“快速模式”，默认使用极简提示词模板，将用户生成内容的编辑时间减少了 40%，同时保持了输出质量。

未来展望与编辑评论

提示词简约主义并非万能药，但它代表了一种根本性的思维转变：从“给模型更多信息”转向“给模型更少但更好的信息”。随着模型能力的提升，这种趋势可能会加速。GPT-5 及后续模型预计将具备更强的意图推断能力，进一步降低对冗长提示词的依赖。

然而，也存在风险。过度极简可能导致上下文缺失，尤其是在需要特定领域知识或细微差别的任务中。例如，在法律分析或医疗诊断中，省略关键背景信息可能产生危险结果。因此，关键在于找到“足够”与“过多”之间的平衡点。

从行业角度看，提示词简约主义对 AI 经济具有深远影响。Token 成本是部署大规模 AI 应用的主要瓶颈之一。通过采用更短的提示词，企业可以将推理成本降低 50-90%，同时提高响应速度和准确性。这可能会加速 AI 在实时应用（如客服、编程助手和内容生成）中的普及。

我们预测，到 2025 年，提示词工程将演变为一门更接近“信息设计”的学科。工具将自动压缩和优化提示词，而用户将不再需要手动编写冗长的指令。像 `langchain` 和 `promptbench` 这样的开源项目已经在这一方向上迈出了步伐。

最终，这场革命的核心信息是：在 AI 交互中，少即是多。模型不需要你的全部思考过程——它们只需要你的核心意图。学会信任模型，用最少的词表达最多的含义，这将是未来人机协作的关键技能。

时间归档

延伸阅读

常见问题

这次模型发布“The Less-is-More Revolution: Why Short Prompts Beat Long Ones in AI”的核心内容是什么？

For years, the prevailing wisdom in prompt engineering has been that more context yields better results. Users were encouraged to flood models with background information, examples…

从“how to write shorter prompts for GPT-4o”看，这个模型发布为什么重要？

The language efficiency revolution in prompt engineering is grounded in several well-established technical principles. At its core is the concept of information density, derived from Claude Shannon's information theory.…

围绕“best prompt compression tools 2026”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。