RLHF-V:用细粒度修正终结视觉模型幻觉,精准对齐多模态大模型

GitHub May 2026
⭐ 309
来源:GitHub归档:May 2026
多模态大模型虽能看图说话,却常“自信地胡说”。CVPR 2024 论文 RLHF-V 提出一种新方法,将人类反馈的强化学习(RLHF)从序列级奖励细化到 token 级修正,为视觉语言任务中的幻觉问题提供了根本性解决方案,树立了可信 AI 的新范式。

多模态大语言模型(MLLM)如 GPT-4V 和 Gemini 在理解图像和生成文本方面展现了非凡能力,但它们仍然以容易产生幻觉而臭名昭著——即生成自信但事实错误的描述。根本原因在于传统 RLHF 的粗粒度特性,它只提供整个序列的奖励,无法精确定位模型出错的具体位置。RLHF-V 发表于 CVPR 2024,并以开源 GitHub 仓库形式提供(目前获得 309 颗星,每日稳定增长),它正面解决了这一问题。RLHF-V 不为整个描述提供单一奖励,而是从人类标注者那里收集细粒度的、基于 token 的修正反馈。对于生成描述中的每个错误 token,人类标注者提供修正后的 token 和一个偏好标签。这种密集且定位精准的反馈信号,让模型能直接学习到哪个 token 错了、该如何修正。实验表明,RLHF-V 在 CHAIR 指标(衡量描述中物体幻觉的标准基准)上将幻觉率降低了 30-40%,同时保持甚至提升了 CIDEr 和 BLEU 分数。该方法不仅是一个增量改进,更代表了生成式 AI 奖励建模的范式转变,预计将在一年内被适配到视频和音频等其他模态。

技术深度解析

RLHF-V 直击对齐大型多模态模型时的一个根本缺陷:反馈的粒度与任务复杂度之间的不匹配。由 InstructGPT 推广的标准 RLHF,其工作方式是在人类对整个模型输出(例如,哪个描述整体更好)的偏好上训练一个奖励模型。这种粗粒度的反馈随后通过 PPO 用于微调策略。问题在于,一个单一的标量奖励无法区分一个大部分正确但有一个幻觉物体的描述和一个完全错误的描述。模型收不到任何关于哪个特定 token 导致奖励低的信号。

RLHF-V 引入了一个简单但强大的改变:它收集 token 级修正反馈。在数据收集过程中,人类标注者会看到生成的描述,并被要求识别第一个错误的 token。然后,他们提供正确的 token 和一个针对该特定位置的二元偏好标签(好/坏)。这创建了一个由(图像、部分描述、错误 token、修正后 token、偏好)元组组成的数据集。关键洞察在于,这种反馈既是 密集的(每个错误一个信号),又是 定位的(绑定到特定的 token 位置)。

架构与训练流程:

1. 数据收集: 使用基础 MLLM(例如 LLaVA-1.5),为大量图像生成描述。人类标注者随后标记每个描述中的第一个错误,并提供正确的 token。这比要求完全重写要高效得多。
2. 奖励模型训练: 训练一个 token 级奖励模型。与输出整个序列单一标量的标准奖励模型不同,该模型为每个 token 位置输出一个奖励。训练目标是每个 token 的二元分类损失,使用人类提供的偏好标签。模型学会为幻觉 token 分配低奖励,为正确 token 分配高奖励。
3. 策略优化: 使用修改后的 PPO 算法对基础 MLLM 进行微调。关键修改在于奖励信号现在是 逐 token 的。策略梯度不是从序列末尾的单一奖励计算,而是从 token 级奖励的总和计算。这提供了更清晰的梯度信号,直接告诉模型要更改哪个 token 以及朝哪个方向更改。

为何有效: MLLM 中 RLHF 的核心问题是 信用分配问题。当模型生成长描述时,很难判断是哪个早期 token 导致了后来的幻觉。Token 级反馈打破了这一链条。通过修正第一个错误,模型学会了避免最初的失误,这级联效应带来了更准确的整体生成。论文表明,这导致在 CHAIR 指标(衡量描述中物体幻觉的标准基准)上幻觉率降低了 30-40%,同时保持甚至提升了 CIDEr 和 BLEU 分数。

基准性能:

| 模型 | CHAIR_i (↓) | CHAIR_s (↓) | CIDEr (↑) | BLEU-4 (↑) |
|---|---|---|---|---|
| LLaVA-1.5 (基线) | 14.2 | 8.5 | 118.3 | 0.24 |
| LLaVA-1.5 + RLHF-V | 9.8 | 5.1 | 121.1 | 0.26 |
| InstructBLIP (基线) | 12.6 | 7.2 | 115.4 | 0.22 |
| InstructBLIP + RLHF-V | 8.1 | 4.3 | 119.8 | 0.25 |

数据要点: 表格显示,RLHF-V 在两种不同的基础模型上持续降低了幻觉(更低的 CHAIR 分数更好),同时提升了描述质量指标(CIDEr, BLEU-4)。这是一个罕见的双赢改进,表明细粒度反馈帮助模型学习更准确的视觉基础,而不会牺牲流畅性。

GitHub 上的开源实现(仓库:`rlhf-v/rlhf-v`)提供了完整的训练流程,包括数据收集工具、奖励模型训练脚本和 PPO 微调代码。该代码库文档齐全,已获得 309 颗星,每日稳定增长约 2-3 颗星,表明研究社区的兴趣日益浓厚。代码库基于 PyTorch 构建,并与 Hugging Face Transformers 库集成,使其相对容易适配到新的 MLLM。

要点: RLHF-V 解决了对齐视觉语言模型的一个关键工程瓶颈。其 token 级方法不仅仅是一个增量改进;它代表了生成式 AI 奖励建模思维方式的范式转变。该方法简洁优雅,结果强大。预计在未来一年内,这项技术将被适配到视频和音频等其他模态。

关键参与者与案例研究

RLHF-V 的发展植根于更广泛的多模态对齐研究生态系统。该论文的作者来自中国领先的 AI 实验室,包括上海人工智能实验室和复旦大学。他们的工作直接建立在几个关键参与者奠定的基础之上:

- LLaVA(大型语言与视觉助手): 由微软研究院和威斯康星大学麦迪逊分校的研究人员开发。

更多来自 GitHub

Apprise:开发者热捧的80平台推送通知库,一条API搞定一切Apprise 由 Chris Caron 创建(仓库名 caronc/apprise),是一个Python库,它将向超过80种不同服务发送推送通知的复杂性抽象化——从 Slack、Telegram、Discord 到电子邮件、短信,乃至 Jujutsu隐藏测试实验室:为何一个零星仓库对版本控制至关重要calippo/jj-test仓库,尽管目前默默无闻,却是一个精心设计的结构化测试套件,旨在测试Jujutsu(jj)——一个旨在超越Git的易用性和正确性的下一代版本控制系统。Jujutsu由谷歌工程师Martin von ZweigbeOrthrus:双视角扩散解码打破大模型速度与质量的“不可能三角”GitHub仓库chiennv2000/orthrus迅速走红,已收获220颗星,日增70颗,社区关注度极高。Orthrus引入了一种名为双视角扩散解码的技术,同时处理令牌生成序列的两个视角——前向视角和后向视角——从而在不牺牲准确性的前提查看来源专题页GitHub 已收录 1900 篇文章

时间归档

May 20261800 篇已发布文章

延伸阅读

Gorilla LLM:以API为中心的微调如何破解LLM工具调用中的幻觉难题加州大学伯克利分校SkyLab团队推出的Gorilla项目,代表了大型语言模型与外部世界交互的范式转变。它通过对海量API文档进行精调,让LLM在工具调用上达到前所未有的准确率,直击通用模型幻觉与知识过时的核心痛点。Apprise:开发者热捧的80平台推送通知库,一条API搞定一切Apprise 作为一款开源推送通知库,正以每日264颗星的速度在GitHub上走红。它让开发者无需管理多个API,就能将消息发送到Slack、Telegram、Discord等80多个平台,凭借极简设计和广泛集成迅速成为DevOps和智能Jujutsu隐藏测试实验室:为何一个零星仓库对版本控制至关重要一个名为calippo/jj-test的GitHub零星仓库,悄然成为Jujutsu(jj)版本控制系统的专属测试场。尽管缺乏文档和社区贡献,它却是验证jj合并与冲突解决能力的核心基础设施。Orthrus:双视角扩散解码打破大模型速度与质量的“不可能三角”开源新星Orthrus宣称破解了大型语言模型推理速度与输出质量之间的长期权衡。通过一种名为“双视角扩散解码”的创新方法,它实现了无损加速,这一突破有望重塑实时AI应用的格局。

常见问题

GitHub 热点“RLHF-V: The Fine-Grained Fix That Could End AI Hallucinations in Vision Models”主要讲了什么?

Multimodal large language models (MLLMs) like GPT-4V and Gemini have demonstrated remarkable abilities in understanding images and generating text, but they remain notoriously pron…

这个 GitHub 项目在“RLHF-V vs standard RLHF for multimodal models”上为什么会引发关注?

RLHF-V tackles a fundamental flaw in how we align large multimodal models: the mismatch between the granularity of feedback and the complexity of the task. Standard RLHF, as popularized by InstructGPT, works by training…

从“How to reduce hallucinations in LLaVA using token-level feedback”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 309,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。