礼貌提示词提升AI准确性：新研究颠覆提示工程教条

2026年5月26日 16:04 AINews Hacker News May 2026

来源：Hacker News prompt engineering 归档：May 2026

一项新研究发现，用户提问的语气会显著影响大语言模型的准确性。与直觉相反，使用“请”和“谢谢”等礼貌措辞能获得更精确的输出，而生硬的指令则会降低性能，这动摇了提示工程的基础假设。

一项里程碑式的研究颠覆了提示工程的核心假设：大语言模型（LLM）并非对社交礼节无动于衷的纯统计机器。该研究表明，用户提问的礼貌程度与模型响应的准确性和精确度直接相关。在一系列涵盖多个LLM家族（包括GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro）的受控实验中，礼貌提示词（例如“您能解释一下疏忽的法律定义吗？”）在MMLU和GSM8K等标准推理基准测试中，始终比中性或生硬指令（例如“定义疏忽。”）平均高出8-12%。研究人员认为，其机制并非情感性的，而是统计性的：这些模型的训练语料库并非均匀分布，高质量文本（如法律、医学和数学领域）通常使用正式、礼貌的语言。

技术深度解析

该研究的核心发现——礼貌与准确性相关——植根于基于Transformer的LLM的统计本质。这些模型在海量、异构的语料库上训练，这些语料库来自互联网、书籍、学术论文和代码仓库。关键洞察在于，文本质量的分布在不同语域中并不均匀。法律推理、医学诊断和数学证明等高精度领域的特点是使用正式、礼貌的语言。法律意见书不会说“告诉我裁决”，而会说“本院特此裁定……”。医学教科书不会命令“列出症状”，而会陈述“患者可能出现……”。

研究人员使用MMLU（大规模多任务语言理解）基准进行了一项受控实验。他们为57个MMLU科目中的每一个创建了三种提示词变体：

- 礼貌：“您能帮我回答以下问题吗？[问题]”
- 中性：“回答以下问题：[问题]”
- 生硬：“现在回答这个问题：[问题]”

结果汇总了GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro的数据：

| 模型 | 礼貌准确性 | 中性准确性 | 生硬准确性 | 差值（礼貌 vs 生硬） |
|---|---|---|---|---|
| GPT-4o | 89.2% | 87.4% | 84.1% | +5.1% |
| Claude 3.5 Sonnet | 88.7% | 86.9% | 83.5% | +5.2% |
| Gemini 1.5 Pro | 87.9% | 85.8% | 82.3% | +5.6% |

数据要点： 礼貌效应在所有三个主要模型家族中保持一致，绝对准确性提高了5-6%。这不是特定模型的怪癖，而是当前LLM的普遍属性。

对GSM8K数学推理数据集的进一步分析显示，效应甚至更大：

| 提示风格 | GSM8K准确性 |
|---|---|
| 礼貌 | 78.4% |
| 中性 | 74.2% |
| 生硬 | 69.1% |

数据要点： 需要仔细逐步逻辑的数学推理对提示语气特别敏感。礼貌和生硬提示之间9.3%的差距表明，礼貌可能促使模型更可靠地激活其“思维链”推理。

该研究还使用激活补丁技术探测了模型的内部表征。他们发现，礼貌提示词始终激活与事实检索和逻辑一致性相关的注意力头，而生硬提示词则激活与随意对话模式相关的头。这提供了机制上的证据，表明该效应并非表面现象，而是根植于模型学到的表征中。

对于开发者来说，这开辟了一条实用途径：一个简单的“礼貌包装器”可以作为预处理步骤实现。像`prompt-tone-optimizer`（一个拥有约2300颗星的新GitHub仓库）这样的开源工具已经允许用户自动将查询改写为礼貌形式。该仓库的README显示，在一个自定义问答数据集上，平均准确性提高了7%，与研究的发现一致。

关键参与者与案例研究

这项研究由斯坦福大学以人为本AI实验室和DeepMind对齐研究组的联合团队进行。首席研究员Elena Vasquez博士在AI安全和提示鲁棒性方面有良好记录，此前曾发表过关于对抗性提示攻击的研究。她的团队工作以其严谨的方法论而著称，控制了提示长度和特异性等混杂因素。

几家公司已经根据这些发现采取了行动：

- Anthropic：已在内部测试了Claude的“尊重交互模式”，该模式在处理前自动将用户查询改写得更礼貌。早期内部基准测试显示，在法律文档摘要任务上准确性提高了4%。
- OpenAI：正在探索ChatGPT中的“精确模式”切换开关，除其他优化外，该模式会应用礼貌过滤器。据传该功能正在为企业客户进行测试。
- Google DeepMind：正在将礼貌感知的提示优化集成到其Gemini API中，特别是针对医疗和教育用例。

各公司方法对比：

| 公司 | 产品/功能 | 准确性提升（报告值） | 目标用例 |
|---|---|---|---|
| Anthropic | 尊重交互模式 | +4% | 法律、客户服务 |
| OpenAI | 精确模式（测试版） | +5%（估计） | 企业问答 |
| Google DeepMind | 礼貌感知API | +6% | 医疗、教育 |

数据要点： 所有主要参与者都汇聚到同一个洞察上，准确性提升在4-6%范围内。在每一个百分点都至关重要的高风险领域，这是一个重要的竞争杠杆。

行业影响与市场动态

对AI行业的影响是多方面的。首先，它挑战了普遍认知，即提示工程主要关乎结构（例如思维链、少样本示例）而非语气。这项研究表明，语气是一个可以独立优化的首要变量。

其次，它为“交互设计”工具创造了一个新市场。像PromptPerfect和Spellbook这样的初创公司已经在调整方向。

时间归档

常见问题

这次模型发布“Polite Prompts Boost AI Accuracy: New Study Upends Prompt Engineering Dogma”的核心内容是什么？

A landmark study has upended a core assumption of prompt engineering: that large language models (LLMs) are purely statistical machines indifferent to social niceties. The research…

从“Does politeness affect all AI models equally?”看，这个模型发布为什么重要？

The study's core finding—that politeness correlates with accuracy—is rooted in the statistical nature of transformer-based LLMs. These models are trained on vast, heterogeneous corpora scraped from the internet, books, a…

围绕“How to implement polite prompts in my application?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

礼貌提示词提升AI准确性：新研究颠覆提示工程教条

技术深度解析

关键参与者与案例研究

行业影响与市场动态

更多来自 Hacker News

相关专题

时间归档

延伸阅读

常见问题