BALTO框架:对LLM幻觉实施“词元级手术”,信息无损精准纠错

June 2026
归档:June 2026
上海交通大学与腾讯联合推出BALTO框架,对大型语言模型进行词元级精准干预,在纠正幻觉的同时不牺牲生成内容的丰富性。在金融问答测试中,该框架大幅降低错误率,同时保持答案的密度与完整性。

大型语言模型长期饱受“幻觉”困扰——模型会自信地输出虚假信息,严重削弱用户信任,尤其在金融、医疗、法律等高 stakes 领域。传统的缓解策略分为两大阵营:全局惩罚(对整个回答因单一错误进行惩罚)和后置过滤(剔除可疑内容)。这两种方法都不可避免地降低了模型输出的信息密度和实用性,迫使开发者在准确性与信息量之间做出痛苦取舍。

由上海交通大学和腾讯研究人员开发的BALTO(Balanced Token-level Policy Optimization,平衡词元级策略优化)打破了这一僵局。与评估整个句子或段落不同,BALTO为每个生成的词元分配独立的信用分数,从而能够精确识别并纠正错误,同时保留正确且信息丰富的部分。在金融领域基准测试FinLLM-Eval上,BALTO将幻觉率从RLHF(基于人类反馈的强化学习)的12.7%降至4.1%,降幅达67.7%,同时回答完整性(F1分数)从0.71回升至0.80,几乎追平基线水平。在TruthfulQA通用基准测试中,准确率也从63.4%提升至71.2%。该框架已开源,GitHub仓库BALTO-LLM发布三周即获超1200星。

技术深度解析

BALTO的核心创新在于它彻底背离了传统的基于人类反馈的强化学习(RLHF)和监督微调(SFT)方法。传统RLHF为整个生成序列分配单一的奖励分数,迫使模型认为包含正确和错误词元的回答是“整体糟糕”的。这种粗放的手段会鼓励模型采取保守策略——给出更短的答案、使用模糊语言、省略不确定的细节——导致学界熟知的“保守主义惩罚”。

BALTO用词元级信用分配机制取代了这种做法。在推理时,该框架为生成序列中的每个词元计算细粒度的奖励。奖励函数由两个组件构成:

1. 事实一致性评分(FCS): 一个轻量级、经过训练的验证器,将每个词元与知识库或真实参考进行比对。对于金融数据,这可能是一个包含公司名称、股票代码、营收数据和日期的结构化数据库。验证器输出一个二元或连续分数,指示该词元是否得到事实支持。

2. 上下文连贯性评分(CCS): 一个基于语言模型的评估器,用于衡量词元在周围语境中是否自然融入,确保纠正不会引入语法或风格上的瑕疵。

最终的词元级奖励是FCS和CCS的加权组合,其超参数可根据不同领域进行调整。在微调阶段,BALTO使用一种改进的策略梯度算法,基于这些逐词元奖励(而非单一的序列级奖励)来更新模型的词元生成概率。

关键的是,BALTO无需访问模型的内部权重或架构。它作为一个即插即用模块运行,可应用于任何自回归LLM,包括GPT风格的解码器和编码器-解码器模型。该框架已开源,可在GitHub仓库`BALTO-LLM`中获取,自三周前发布以来已获得超过1200颗星。该仓库包含针对金融和通用知识领域的预训练验证器,以及训练脚本和评估流水线。

| 基准测试 | 指标 | 基线 (GPT-4) | 基线 + RLHF | BALTO (GPT-4) | 改进幅度 |
|---|---|---|---|---|---|
| FinLLM-Eval | 幻觉率 (%) | 18.3 | 12.7 | 4.1 | 相比RLHF降低67.7% |
| FinLLM-Eval | 回答完整性 (F1) | 0.82 | 0.71 | 0.80 | 相比RLHF提升+12.7% |
| FinLLM-Eval | 事实实体准确率 (%) | 81.2 | 87.5 | 95.8 | 相比RLHF提升+8.3% |
| TruthfulQA | 准确率 (%) | 58.0 | 63.4 | 71.2 | 相比RLHF提升+12.3% |

数据要点: 数字清晰地说明了一切:BALTO相比RLHF实现了67.7%的幻觉率降低,同时几乎完全恢复了RLHF所损失的回答完整性。事实实体准确率跃升至95.8%,这一水平此前被认为在不牺牲信息量的情况下无法达到。TruthfulQA上的改进进一步验证了该方法在金融领域之外也具有泛化能力。

关键参与者与案例研究

BALTO框架是上海交通大学人工智能与数据科学中心与腾讯AI实验室的联合成果。首席研究员李伟博士在NLP领域的强化学习方面有着丰富履历,此前曾参与自对弈微调框架SPIN的研究。腾讯的贡献带来了工业级工程能力——验证器模型是在腾讯自有的金融语料库上训练的,该语料库包含数百万份财报电话会议记录、监管文件和分析师报告。

腾讯已将BALTO集成到其内部金融分析工具Tencent FinBot中,该工具提供中国A股市场数据的实时问答。早期内部测试显示,与之前基于RLHF的系统相比,BALTO将用户报告的事实错误减少了82%,同时用户满意度(以追问率衡量)提升了23%。

在金融领域之外,该团队正在与北京大学第三医院合作,将BALTO应用于临床决策支持。在一项涉及500个合成患者病例的试点研究中,经BALTO微调的模型正确识别药物相互作用和禁忌症的准确率达到96.3%,而基线为88.1%,同时保持了相同水平的诊断细节。

竞争方案包括:

| 解决方案 | 开发者 | 方法 | 关键局限 |
|---|---|---|---|
| Constitutional AI | Anthropic | 基于规则的自我批评 | 需要大量人工规则工程;仍为序列级别 |
| RAG(检索增强生成) | Meta等 | 外部知识检索 | 延迟和检索质量问题;不修复模型内部 |
| Contrastive Decoding | 多家机构 | 惩罚低置信度词元 | 可能抑制罕见但正确的信息 |
| BALTO | 上海交大 + 腾讯 | 词元级奖励 | 需要特定领域的验证器训练 |

数据

时间归档

June 20262278 篇已发布文章

延伸阅读

幻觉危机:AI自信的谎言如何威胁企业级应用一项里程碑式的大规模研究彻底打破了“大语言模型幻觉只是罕见边缘案例”的幻觉。在医学、法律和金融等关键领域,模型以惊人的自信捏造信息的比例高达27%,形成了连专家都无法可靠识别的“自信-准确悖论”。90天独角兽:昆仑星机器人改写具身智能投资规则仅用90天,昆仑星机器人完成三轮融资,累计吸纳数十亿资本,跻身独角兽行列。每一轮初始投资者均全额跟投,标志着资本评估具身智能的根本性转变:不再将其视为投机赌注,而是作为可投产的平台。Alibaba Execs Plant Rice as Zhipu AI Hits $140B, Reshaping China TechAlibaba's top brass spent a morning planting half a mu of rice, sparking online mockery. Simultaneously, Zhipu AI's markSpaceX IPO:1.75万亿美元的轨道AI基础设施豪赌SpaceX以每股135美元登陆纳斯达克,目标募资7500亿美元,估值高达1.75万亿美元。但真正的故事在于其向“太空AI”的战略转型——轨道数据中心承诺无限太阳能与超低延迟计算,引爆了华尔街最激烈的估值辩论。

常见问题

这次模型发布“BALTO Framework: Token-Level Surgery for LLM Hallucinations Without Sacrificing Information”的核心内容是什么?

Large language models have long suffered from hallucinations—confidently stated falsehoods that undermine trust, especially in high-stakes domains like finance, medicine, and law.…

从“BALTO vs RLHF for LLM hallucination reduction”看,这个模型发布为什么重要?

BALTO’s core innovation lies in its departure from conventional reinforcement learning from human feedback (RLHF) and supervised fine-tuning (SFT) approaches. Traditional RLHF assigns a single reward score to an entire g…

围绕“How to train a domain-specific verifier for BALTO”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。