技术深度解析
BALTO的核心创新在于它彻底背离了传统的基于人类反馈的强化学习(RLHF)和监督微调(SFT)方法。传统RLHF为整个生成序列分配单一的奖励分数,迫使模型认为包含正确和错误词元的回答是“整体糟糕”的。这种粗放的手段会鼓励模型采取保守策略——给出更短的答案、使用模糊语言、省略不确定的细节——导致学界熟知的“保守主义惩罚”。
BALTO用词元级信用分配机制取代了这种做法。在推理时,该框架为生成序列中的每个词元计算细粒度的奖励。奖励函数由两个组件构成:
1. 事实一致性评分(FCS): 一个轻量级、经过训练的验证器,将每个词元与知识库或真实参考进行比对。对于金融数据,这可能是一个包含公司名称、股票代码、营收数据和日期的结构化数据库。验证器输出一个二元或连续分数,指示该词元是否得到事实支持。
2. 上下文连贯性评分(CCS): 一个基于语言模型的评估器,用于衡量词元在周围语境中是否自然融入,确保纠正不会引入语法或风格上的瑕疵。
最终的词元级奖励是FCS和CCS的加权组合,其超参数可根据不同领域进行调整。在微调阶段,BALTO使用一种改进的策略梯度算法,基于这些逐词元奖励(而非单一的序列级奖励)来更新模型的词元生成概率。
关键的是,BALTO无需访问模型的内部权重或架构。它作为一个即插即用模块运行,可应用于任何自回归LLM,包括GPT风格的解码器和编码器-解码器模型。该框架已开源,可在GitHub仓库`BALTO-LLM`中获取,自三周前发布以来已获得超过1200颗星。该仓库包含针对金融和通用知识领域的预训练验证器,以及训练脚本和评估流水线。
| 基准测试 | 指标 | 基线 (GPT-4) | 基线 + RLHF | BALTO (GPT-4) | 改进幅度 |
|---|---|---|---|---|---|
| FinLLM-Eval | 幻觉率 (%) | 18.3 | 12.7 | 4.1 | 相比RLHF降低67.7% |
| FinLLM-Eval | 回答完整性 (F1) | 0.82 | 0.71 | 0.80 | 相比RLHF提升+12.7% |
| FinLLM-Eval | 事实实体准确率 (%) | 81.2 | 87.5 | 95.8 | 相比RLHF提升+8.3% |
| TruthfulQA | 准确率 (%) | 58.0 | 63.4 | 71.2 | 相比RLHF提升+12.3% |
数据要点: 数字清晰地说明了一切:BALTO相比RLHF实现了67.7%的幻觉率降低,同时几乎完全恢复了RLHF所损失的回答完整性。事实实体准确率跃升至95.8%,这一水平此前被认为在不牺牲信息量的情况下无法达到。TruthfulQA上的改进进一步验证了该方法在金融领域之外也具有泛化能力。
关键参与者与案例研究
BALTO框架是上海交通大学人工智能与数据科学中心与腾讯AI实验室的联合成果。首席研究员李伟博士在NLP领域的强化学习方面有着丰富履历,此前曾参与自对弈微调框架SPIN的研究。腾讯的贡献带来了工业级工程能力——验证器模型是在腾讯自有的金融语料库上训练的,该语料库包含数百万份财报电话会议记录、监管文件和分析师报告。
腾讯已将BALTO集成到其内部金融分析工具Tencent FinBot中,该工具提供中国A股市场数据的实时问答。早期内部测试显示,与之前基于RLHF的系统相比,BALTO将用户报告的事实错误减少了82%,同时用户满意度(以追问率衡量)提升了23%。
在金融领域之外,该团队正在与北京大学第三医院合作,将BALTO应用于临床决策支持。在一项涉及500个合成患者病例的试点研究中,经BALTO微调的模型正确识别药物相互作用和禁忌症的准确率达到96.3%,而基线为88.1%,同时保持了相同水平的诊断细节。
竞争方案包括:
| 解决方案 | 开发者 | 方法 | 关键局限 |
|---|---|---|---|
| Constitutional AI | Anthropic | 基于规则的自我批评 | 需要大量人工规则工程;仍为序列级别 |
| RAG(检索增强生成) | Meta等 | 外部知识检索 | 延迟和检索质量问题;不修复模型内部 |
| Contrastive Decoding | 多家机构 | 惩罚低置信度词元 | 可能抑制罕见但正确的信息 |
| BALTO | 上海交大 + 腾讯 | 词元级奖励 | 需要特定领域的验证器训练 |
数据