AI学会“读心术”：潜在偏好学习如何重塑人机对齐

2026年5月14日 12:08 AINews arXiv cs.AI May 2026

来源：arXiv cs.AI AI alignment large language models 归档：May 2026

一项全新研究框架让大语言模型能从极简交互中推断用户未言明的偏好，从被动执行指令转向主动理解意图。这标志着人机对齐的根本性转变，有望催生更直觉化、更个性化的AI代理。

当前大语言模型的核心短板并非推理能力，而是当用户指令模糊时，无法真正理解其“想要什么”。一项名为“潜在偏好学习”（Latent Preference Learning, LPL）的突破性研究框架直击这一痛点。不同于要求用户提供显式反馈（如点赞/点踩或繁琐的提示工程），LPL让模型仅凭少量自然交互就能推断出用户的底层价值体系。例如，一个AI日程助手可以自行判断用户更看重家庭时间而非会议效率，无需用户明确告知。其实现方式是通过训练一个辅助的“偏好编码器”，将交互历史映射为一个代表用户未言明优先级的潜在向量，随后用该向量指导模型生成。初步基准测试显示，在模糊指令任务中，LPL的成功率比标准RLHF高出19个百分点，且适应速度提升5倍。

技术深度解析

潜在偏好学习（LPL）框架是对标准人类反馈强化学习（RLHF）的一次精妙超越。RLHF需要人类显式地对输出进行评分或排序（例如“回复A优于回复B”），而LPL基于一个根本不同的原理：从示范中进行隐式推断。

架构： 系统由三个核心组件构成：
1. 基础LLM： 一个标准的预训练语言模型（例如7B或13B参数模型），负责生成回复。
2. 偏好编码器： 一个较小的专用神经网络（通常是Transformer或简单的MLP），以用户的交互历史（一系列过往查询及用户的后续操作，如编辑或追问）为输入。它输出一个潜在偏好向量——一个稠密的低维嵌入，编码了用户推断出的价值观（例如[保守、风险规避、注重细节] vs. [创意、风险偏好、宏观视角]）。
3. 偏好条件解码器： 基础LLM的输出生成过程以该潜在向量为条件。这可以通过交叉注意力层实现，也可以通过将偏好嵌入作为前缀微调模型的隐藏状态来实现。

训练过程： 关键创新在于训练目标。模型并非被训练来预测评分，而是预测用户的下一步行动。给定一段交互历史（查询、回复、用户编辑），偏好编码器必须学习一种潜在表征，当该表征被输入解码器时，能最小化用户实际下一步行动带来的“惊讶度”。这是一种基于用户行为数据的自监督学习形式。

相关开源工作： 尽管LPL框架本身是新的，但它建立在多个开源项目之上。Hugging Face的`peft`（参数高效微调）库（GitHub上超过15k星标）提供了无需完整重训练即可将模型条件化于额外输入的工具。Meta的`llama-recipes`仓库（约10k星标）提供了可适配用于偏好条件化的指令微调示例。从行为中学习潜在表征的核心思想也在`Decision Transformer`（GitHub：约5k星标）架构中有所探索，该架构使用类似的序列到序列方法进行离线强化学习。

基准性能： 在一套自定义的模糊指令任务上的初步基准测试显示了显著改进。下表比较了LPL与标准RLHF以及零样本提示基线的表现。

| 方法 | 任务成功率（模糊指令） | 用户满意度评分（1-5分） | 适应速度（达到收敛所需交互次数） |
|---|---|---|---|
| 零样本提示 | 34% | 2.1 | 不适用 |
| 标准RLHF（含显式反馈） | 62% | 3.8 | 50+ |
| 潜在偏好学习（LPL） | 81% | 4.5 | 8-12 |

数据要点： LPL在任务成功率上比RLHF高出19个百分点，且适应个人风格所需的交互次数减少5倍。这表明在个性化方面实现了根本性的效率提升。

关键参与者与案例研究

构建“直觉式”AI的竞赛并非仅限于学术界。尽管LPL框架提供了一种更形式化的方法，但已有几个关键参与者正朝这个方向迈进。

关键研究者： 这项工作由来自加州大学伯克利分校与Google DeepMind联合团队主导，包括人机交互与逆向强化学习先驱Dr. Anca Dragan，以及元学习专家Dr. Chelsea Finn等知名人物。她们此前在“从玩耍中学习”和“单样本模仿学习”方面的工作为从行为推断意图奠定了基础。

产品级实现：
- Anthropic的Claude： Claude的“宪法式AI”及其对“性格”的关注，可视为一种原始形式的潜在偏好学习，其中嵌入了一套固定的价值观。LPL框架将允许Claude学习一套用户专属的宪法。
- 微软的Copilot： Microsoft 365中Copilot的“个性化”功能试图学习你的写作风格，是该概念的一个商业应用，尽管它基于近期文档历史而非学习到的潜在向量，因此较为简单。
- Inflection AI（Pi）等初创公司： Pi作为一款“个人AI”的设计，能够记住对话，是对此的直接尝试，但它依赖于显式的记忆检索，而非潜在推断。

| 公司/产品 | 当前理解用户的方法 | 潜在偏好学习潜力 | 关键局限 |
|---|---|---|---|
| Anthropic (Claude) | 固定的宪法价值观 + 显式反馈 | 高：可学习用户特定的伦理权衡 | 需要为新价值观重新训练 |
| 微软 (Copilot) | 近期文档历史 + 显式风格设置 | 中：可推断更深层的工作优先级 | 局限于表面风格 |
| Inflection AI (Pi) | 显式记忆检索 + 对话历史 | 中：可转向隐式推断 | 依赖显式存储，缺乏泛化能力 |

时间归档

常见问题

这次模型发布“AI Learns to Read Your Mind: The Rise of Latent Preference Learning”的核心内容是什么？

The core limitation of today's large language models is not their reasoning ability, but their inability to grasp what a user *really* wants when the request is ambiguous. A ground…

从“How does latent preference learning differ from RLHF?”看，这个模型发布为什么重要？

The Latent Preference Learning (LPL) framework represents a sophisticated departure from standard Reinforcement Learning from Human Feedback (RLHF). While RLHF requires a human to explicitly rate or rank outputs (e.g., "…

围绕“What are the privacy risks of AI that infers unspoken preferences?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

AI学会“读心术”：潜在偏好学习如何重塑人机对齐

技术深度解析

关键参与者与案例研究

更多来自 arXiv cs.AI

相关专题

时间归档

延伸阅读

常见问题