BALTO框架：对LLM幻觉实施“词元级手术”，信息无损精准纠错

大型语言模型长期饱受“幻觉”困扰——模型会自信地输出虚假信息，严重削弱用户信任，尤其在金融、医疗、法律等高 stakes 领域。传统的缓解策略分为两大阵营：全局惩罚（对整个回答因单一错误进行惩罚）和后置过滤（剔除可疑内容）。这两种方法都不可避免地降低了模型输出的信息密度和实用性，迫使开发者在准确性与信息量之间做出痛苦取舍。

由上海交通大学和腾讯研究人员开发的BALTO（Balanced Token-level Policy Optimization，平衡词元级策略优化）打破了这一僵局。与评估整个句子或段落不同，BALTO为每个生成的词元分配独立的信用分数，从而能够精确识别并纠正错误，同时保留正确且信息丰富的部分。在金融领域基准测试FinLLM-Eval上，BALTO将幻觉率从RLHF（基于人类反馈的强化学习）的12.7%降至4.1%，降幅达67.7%，同时回答完整性（F1分数）从0.71回升至0.80，几乎追平基线水平。在TruthfulQA通用基准测试中，准确率也从63.4%提升至71.2%。该框架已开源，GitHub仓库BALTO-LLM发布三周即获超1200星。

技术深度解析

BALTO的核心创新在于它彻底背离了传统的基于人类反馈的强化学习（RLHF）和监督微调（SFT）方法。传统RLHF为整个生成序列分配单一的奖励分数，迫使模型认为包含正确和错误词元的回答是“整体糟糕”的。这种粗放的手段会鼓励模型采取保守策略——给出更短的答案、使用模糊语言、省略不确定的细节——导致学界熟知的“保守主义惩罚”。

BALTO用词元级信用分配机制取代了这种做法。在推理时，该框架为生成序列中的每个词元计算细粒度的奖励。奖励函数由两个组件构成：

1. 事实一致性评分（FCS）： 一个轻量级、经过训练的验证器，将每个词元与知识库或真实参考进行比对。对于金融数据，这可能是一个包含公司名称、股票代码、营收数据和日期的结构化数据库。验证器输出一个二元或连续分数，指示该词元是否得到事实支持。

2. 上下文连贯性评分（CCS）： 一个基于语言模型的评估器，用于衡量词元在周围语境中是否自然融入，确保纠正不会引入语法或风格上的瑕疵。

最终的词元级奖励是FCS和CCS的加权组合，其超参数可根据不同领域进行调整。在微调阶段，BALTO使用一种改进的策略梯度算法，基于这些逐词元奖励（而非单一的序列级奖励）来更新模型的词元生成概率。

关键的是，BALTO无需访问模型的内部权重或架构。它作为一个即插即用模块运行，可应用于任何自回归LLM，包括GPT风格的解码器和编码器-解码器模型。该框架已开源，可在GitHub仓库`BALTO-LLM`中获取，自三周前发布以来已获得超过1200颗星。该仓库包含针对金融和通用知识领域的预训练验证器，以及训练脚本和评估流水线。

| 基准测试 | 指标 | 基线 (GPT-4) | 基线 + RLHF | BALTO (GPT-4) | 改进幅度 |
|---|---|---|---|---|---|
| FinLLM-Eval | 幻觉率 (%) | 18.3 | 12.7 | 4.1 | 相比RLHF降低67.7% |
| FinLLM-Eval | 回答完整性 (F1) | 0.82 | 0.71 | 0.80 | 相比RLHF提升+12.7% |
| FinLLM-Eval | 事实实体准确率 (%) | 81.2 | 87.5 | 95.8 | 相比RLHF提升+8.3% |
| TruthfulQA | 准确率 (%) | 58.0 | 63.4 | 71.2 | 相比RLHF提升+12.3% |

数据要点： 数字清晰地说明了一切：BALTO相比RLHF实现了67.7%的幻觉率降低，同时几乎完全恢复了RLHF所损失的回答完整性。事实实体准确率跃升至95.8%，这一水平此前被认为在不牺牲信息量的情况下无法达到。TruthfulQA上的改进进一步验证了该方法在金融领域之外也具有泛化能力。

关键参与者与案例研究

BALTO框架是上海交通大学人工智能与数据科学中心与腾讯AI实验室的联合成果。首席研究员李伟博士在NLP领域的强化学习方面有着丰富履历，此前曾参与自对弈微调框架SPIN的研究。腾讯的贡献带来了工业级工程能力——验证器模型是在腾讯自有的金融语料库上训练的，该语料库包含数百万份财报电话会议记录、监管文件和分析师报告。

腾讯已将BALTO集成到其内部金融分析工具Tencent FinBot中，该工具提供中国A股市场数据的实时问答。早期内部测试显示，与之前基于RLHF的系统相比，BALTO将用户报告的事实错误减少了82%，同时用户满意度（以追问率衡量）提升了23%。

在金融领域之外，该团队正在与北京大学第三医院合作，将BALTO应用于临床决策支持。在一项涉及500个合成患者病例的试点研究中，经BALTO微调的模型正确识别药物相互作用和禁忌症的准确率达到96.3%，而基线为88.1%，同时保持了相同水平的诊断细节。

竞争方案包括：

| 解决方案 | 开发者 | 方法 | 关键局限 |
|---|---|---|---|
| Constitutional AI | Anthropic | 基于规则的自我批评 | 需要大量人工规则工程；仍为序列级别 |
| RAG（检索增强生成） | Meta等 | 外部知识检索 | 延迟和检索质量问题；不修复模型内部 |
| Contrastive Decoding | 多家机构 | 惩罚低置信度词元 | 可能抑制罕见但正确的信息 |
| BALTO | 上海交大 + 腾讯 | 词元级奖励 | 需要特定领域的验证器训练 |

数据

时间归档

延伸阅读

常见问题

这次模型发布“BALTO Framework: Token-Level Surgery for LLM Hallucinations Without Sacrificing Information”的核心内容是什么？

Large language models have long suffered from hallucinations—confidently stated falsehoods that undermine trust, especially in high-stakes domains like finance, medicine, and law.…

从“BALTO vs RLHF for LLM hallucination reduction”看，这个模型发布为什么重要？

BALTO’s core innovation lies in its departure from conventional reinforcement learning from human feedback (RLHF) and supervised fine-tuning (SFT) approaches. Traditional RLHF assigns a single reward score to an entire g…

围绕“How to train a domain-specific verifier for BALTO”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。