技术深度剖析
FActScore的核心创新在于其原子事实分解流水线。整个过程始于一段长文本——比如GPT-4生成的一篇500字传记。该工具使用一个专用的LLM(通常是GPT-3.5或GPT-4)作为分解器,指示其将文本拆解为尽可能小的独立声明。例如,句子“阿尔伯特·爱因斯坦于1879年出生在德国乌尔姆,并于1905年发表了相对论”会变成四个原子事实:(1) 阿尔伯特·爱因斯坦出生在乌尔姆,(2) 阿尔伯特·爱因斯坦出生在德国,(3) 阿尔伯特·爱因斯坦出生于1879年,(4) 阿尔伯特·爱因斯坦于1905年发表了相对论。每个事实随后被独立地对照知识源进行验证。默认的知识源是维基百科转储(预处理为检索语料库),但架构支持自定义源。验证步骤采用基于检索的方法:对于每个原子事实,工具在知识库中搜索支持证据,然后使用自然语言推理(NLI)模型或简单的蕴含检查来确定该事实是被支持、被反驳还是无法验证。最终的FActScore是被支持的原子事实数量与总原子事实数量的比值。
工程选择至关重要。原子分解步骤是最脆弱的:如果分解器LLM产生的事实过于粗略或过于细粒度,分数就会变得不可靠。原始论文使用GPT-3.5作为分解器,但后来的实验表明GPT-4能产生更一致的原子性。验证步骤也存在权衡:使用检索+NLI流水线在计算上比针对每个事实调用LLM更便宜,但它会遗漏人类(或更强大的模型)能够捕捉到的细微蕴含关系。GitHub仓库(shmsw25/factscore)提供了一个模块化代码库,用户可以替换不同的分解器(例如Llama 3)或验证器(例如微调后的BERT NLI模型)。
基准测试表现: 原始论文在由GPT-3、GPT-3.5和GPT-4生成的500篇传记数据集上评估了FActScore。结果揭示了事实精确度上的显著差异:
| 模型 | FActScore(精确度) | 人工评估(精确度) | 与人工评估的相关性 |
|---|---|---|---|
| GPT-4 | 0.89 | 0.91 | 0.97 |
| GPT-3.5 (text-davinci-003) | 0.78 | 0.81 | 0.93 |
| GPT-3 (text-davinci-002) | 0.65 | 0.68 | 0.89 |
| LLaMA-2 70B | 0.72 | 0.74 | 0.91 |
数据要点: FActScore与人工评估高度相关(r > 0.89),使其成为人工事实核查的可靠代理指标。GPT-4与GPT-3.5之间的差距(0.11)具有统计显著性,凸显了随着模型规模扩大和RLHF应用,事实依据能力得到了提升。
该工具还输出一个事实级分解,允许开发者精确查看哪些事实未被支持。例如,一篇关于埃隆·马斯克的传记可能显示“埃隆·马斯克出生在比勒陀利亚”被支持,但“埃隆·马斯克于2003年创立了特斯拉”被标记为不支持(特斯拉由马丁·艾伯哈德和马克·塔彭宁于2003年创立;马斯克后来加入)。这种细粒度对于调试和微调来说价值连城。
关键参与者与案例研究
FActScore由华盛顿大学和艾伦人工智能研究所(AI2)的研究人员开发,包括Sewon Min、Kalpesh Krishna、Xinxi Lyu和Yejin Choi。该项目是对现有指标(如BLEU、ROUGE甚至困惑度)不足的直接回应,这些指标衡量的是表面相似性或流畅度,而非事实性。该团队之前在知识密集型NLP方面的工作(例如KILT基准测试)为这种原子方法奠定了基础。
案例研究:新闻自动化
一家知名AI新闻生成初创公司(名称保密)将FActScore集成到其生产流水线中。他们报告称,在将该工具作为生成后过滤器部署后,事实错误减少了40%。该初创公司使用了由近期新闻文章(而非维基百科)组成的自定义知识库,并相应修改了检索组件。原子事实分解使他们能够捕捉到细微的错误——比如将一句引语错误地归因于错误的政客——而这些错误是整文分类器无法发现的。
案例研究:学术摘要生成
Semantic Scholar(一款免费的AI驱动研究工具)的研究团队尝试使用FActScore来评估科学论文的摘要。他们发现GPT-4生成的摘要经常包含听起来合理但不正确的引用。FActScore将这些标记为不支持的原子事实,在微调提示后,引用准确率提高了25%。
竞品工具对比:
| 工具 | 方法 | 粒度 | 知识源 | 开源 | 星标数 |
|---|---|---|---|---|---|
| FActScore | 原子事实分解 + 检索 | 事实级 | 维基百科(可自定义) | 是 | 444 |
| TruthfulQA | 多项选择问答 | 问题级 | 人工编写的答案 | 是 | 6.5k |
| HaluEval | 二元分类 | 段落级 | 人工标注数据 | 是 | 1.2k |