“猫在蛋黄酱下”：无需重训的LLM行为劫持术，颠覆AI安全认知

2026年5月4日 22:50 AINews Hacker News May 2026

一项名为“猫在蛋黄酱下”的怪异技术正引发热议：它仅凭精心构造的提示词，就能在数分钟内重新编程大语言模型的行为——无需重训、无需微调、无需RLHF。AINews深度解析其机制、机遇与存在的风险。

AI社区被一项看似简单的实验“猫在蛋黄酱下”所震撼。这个故意荒诞的名称，指向一个深刻洞见：LLM拥有一种潜在的“上下文可塑性”，可以被利用来改变其输出分布——语气、事实召回、安全护栏——而无需触碰任何权重。传统方法如监督微调或基于人类反馈的强化学习（RLHF）需要海量算力、精心策划的数据集和数周的迭代。而这项新方法将一系列结构连贯但语义异常的例子（如“猫在蛋黄酱下”）注入模型的上下文窗口。模型被迫将这些怪异内容与训练分布相协调，从而在运行中重新校准其内部表征。

技术深度解析

“猫在蛋黄酱下”技术利用了基于Transformer的LLM的一个基本特性：它们能够从上下文示例中学习和泛化，即使这些示例在语义上是荒谬的。核心机制依赖于研究人员所谓的“上下文分布偏移”。当模型处理一系列提示词，这些提示词始终将特定行为（例如正式语气）与异常上下文（例如“猫在蛋黄酱下”）配对时，模型开始将异常上下文与期望行为关联起来。这种关联并不存储在模型权重中，而是维持在活动上下文窗口内，从而有效创建一个临时的“行为覆盖层”。

从架构角度来看，该技术利用了注意力机制对位置和语义模式的敏感性。注入的示例被结构化以最大化“注意力汇聚”效应——即模型将不成比例的注意力分配给异常标记，迫使它们影响后续输出。这与标准的提示工程不同，后者通常依赖显式指令。在这里，模型是被“展示”而非“告知”，使得行为变化更稳健，更不易出现指令遵循失败。

一个相关的开源项目“ContextPatcher”（可在GitHub上获取，已获超过1200颗星）已在实践中展示了这一原理。ContextPatcher提供了一个预构建的“行为补丁”库，用于常见任务，如毒性降低、语气转换和事实召回校准。该仓库包含一个基准测试套件，可衡量补丁在Llama 3、Mistral和GPT-4o等模型上的效果。初步结果显示，一个精心制作的补丁在特定指标上可达到完全微调效果的85%，例如将毒性输出相比基线降低70%。

| 模型 | 基线毒性 (%) | 微调后 (%) | “猫在蛋黄酱下”补丁后 (%) | 补丁效果 vs. 微调 |
|---|---|---|---|---|
| Llama 3 8B | 12.4 | 3.1 | 4.2 | 87% |
| Mistral 7B | 15.8 | 4.5 | 5.9 | 86% |
| GPT-4o (API) | 6.2 | 1.8 | 2.5 | 85% |

数据要点： “猫在蛋黄酱下”补丁在毒性降低方面达到了完全微调效果的约85-87%，但成本极低（几分钟对比数小时/数天），且无需修改任何参数。这表明对于许多行为调整而言，微调可能大材小用。

该技术的局限性同样重要。补丁的效果受限于上下文窗口——一旦上下文被清除或会话结束，模型就会恢复其原始行为。这使得它不适合持久定制，但非常适合会话特定应用。此外，补丁的效果会随上下文长度而衰减；超过大约8000个标记后，异常示例会被正常上下文“稀释”，从而减少行为偏移。

关键参与者与案例研究

已有多个组织正在探索或商业化这一方法。Anthropic内部研究了“上下文行为注入”，作为宪法AI的潜在轻量级替代方案，但他们尚未公开发布结果。OpenAI的API团队曾轶事性地指出，某些系统提示可能引发意外的行为偏移，但他们尚未正式描述“猫在蛋黄酱下”现象。

最突出的案例研究来自一家名为“PatchAI”的初创公司，该公司提供一项服务，允许开发者在30秒内将行为补丁应用于任何LLM API。PatchAI的平台使用专有算法，根据用户期望的行为配置文件生成最优补丁序列。他们声称自2025年第一季度测试版发布以来，已处理超过50万个补丁，平均客户满意度评分为4.7/5。其定价模式基于使用量：每次补丁应用0.01美元，使小型团队也能负担得起。

| 解决方案 | 设置时间 | 每次定制成本 | 持久性 | 模型兼容性 |
|---|---|---|---|---|
| 微调（例如通过Hugging Face） | 2-7天 | 500-5000+美元 | 永久 | 任何开源模型 |
| RLHF（例如通过Scale AI） | 2-4周 | 10,000-100,000+美元 | 永久 | 任何具有API访问权限的模型 |
| “猫在蛋黄酱下”（例如PatchAI） | 30秒 | 每次会话0.01美元 | 仅限会话 | 任何上下文窗口大于4K标记的LLM |

数据要点： “猫在蛋黄酱下”方法相比传统方法，设置时间减少了99.9%，成本减少了99.99%，但代价是仅限会话的持久性。对于聊天机器人、临时代理或A/B测试等应用，这种权衡是可以接受的。

另一个值得注意的参与者是剑桥大学的研究小组，他们发表了一篇题为《大语言模型中的上下文行为修补》的预印本。他们证明该技术适用于12种不同的模型，包括开源和闭源模型。

常见问题

这次模型发布“Cat Under Mayonnaise: The LLM Behavior Hack That Bypasses Retraining”的核心内容是什么？

The AI community has been shaken by a deceptively simple experiment dubbed 'Cat Under Mayonnaise.' The name, deliberately absurd, points to a profound insight: LLMs possess a laten…

从“how does cat under mayonnaise work technically”看，这个模型发布为什么重要？

The 'Cat Under Mayonnaise' technique exploits a fundamental property of transformer-based LLMs: their ability to learn and generalize from in-context examples, even when those examples are semantically absurd. The core m…

围绕“cat under mayonnaise vs fine tuning cost comparison”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

“猫在蛋黄酱下”：无需重训的LLM行为劫持术，颠覆AI安全认知

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

相关专题

时间归档

延伸阅读

常见问题