技术深度解析
核心架构看似简单。两个专业AI代理按顺序流水线运作:调研代理和写作代理。两者均构建于大型语言模型之上(很可能是GPT-4或Claude的微调变体,但具体模型未公开),但其行为受到接地门的严格约束。
调研代理: 该代理负责收集特定主题的信息。它并非简单查询LLM的参数化记忆,而是使用检索增强生成(RAG)管道,在预索引的可信来源数据库(包括新闻通讯、政府报告、学术论文和经过验证的新闻稿)中进行搜索。代理会制定搜索查询、检索相关文档并提取候选事实。每个事实都以结构化三元组形式存储:(主语、谓语、宾语)并附有来源引用。
写作代理: 该代理接收来自调研代理的已验证事实三元组,并撰写连贯的文章。它被指示绝不编造事实,仅对已验证的声明进行改写和连接。写作代理的创造力被引导至叙事结构、语气和可读性——而非生成新信息。
接地门: 这是关键组件。在写作代理的输出发布前,每项事实声明都会被提取并与原始源文档进行匹配。该门结合语义相似度(例如,句子嵌入的余弦相似度)和精确字符串匹配,确保每项声明都直接有来源支持。未通过验证的声明会被删除、标记要求代理重写,或导致整篇文章被保留供人工审核。接受阈值可配置;运营者已将其设置为严格的95%置信水平。
工程哲学: 该系统明确避免试图通过模型训练消除幻觉。相反,它将幻觉视为一种可通过外部约束管理的系统属性。这类似于编译器捕获代码中的类型错误——它不会让程序员更聪明,但能防止某些类别的错误进入生产环境。
相关开源仓库:
- LangChain(GitHub:95k+星):提供可能支撑该管道的代理编排框架。其工具使用和记忆能力非常适合这种多代理设置。
- Haystack(GitHub:18k+星):构建RAG管道的替代框架。其文档存储和检索组件可用于构建来源数据库。
- Factool(GitHub:3k+星):用于验证LLM输出事实一致性的工具。虽未直接使用,但其声明提取和验证方法在概念上相似。
性能数据: 运营者发布了有限的基准数据,将其系统与未接地LLM进行对比:
| 指标 | 标准LLM(GPT-4) | 接地代理系统 |
|---|---|---|
| 幻觉率(每1000条声明) | 47 | 2 |
| 事实准确性(人工评估) | 82% | 98% |
| 生成500字文章所需时间 | 12秒 | 45秒 |
| 来源引用覆盖率 | 0% | 100% |
数据要点: 与原始LLM相比,接地门将幻觉降低了95%以上,但延迟增加了3.75倍。速度与准确性之间的权衡显而易见,但对于新闻生产而言,准确性至关重要。
关键参与者与案例研究
该实验由一个小型独立团队运营——很可能是一家初创公司或研究小组——目前选择保持匿名。然而,该方法建立在多位知名人士和组织的工作基础之上。
知名研究者及其贡献:
- Yann LeCun(Meta AI): 长期主张LLM因缺乏与现实世界的接地而存在根本局限。他关于“世界模型”和“目标驱动AI”的概念与接地门通过外部验证约束AI的哲学一致。
- Percy Liang(斯坦福大学): 他在“接地语言理解”和HELM基准方面的工作直接解决了事实接地的需求。接地门是其研究的实际应用。
- Gary Marcus: 作为LLM的直言批评者,Marcus多次呼吁构建结合神经网络与符号推理及外部知识库的混合系统。接地门正是这种方法的典型范例。
与现有自动化新闻工具的比较:
| 工具/公司 | 方法 | 人工参与度 | 幻觉风险 | 每篇文章成本 |
|---|---|---|---|---|
| Automated Insights(Wordsmith) | 基于模板的自然语言生成,从结构化数据出发 | 低 | 极低(受模板约束) | $0.50-$2.00 |
| Narrative Science(Quill) | 基于规则的自然语言生成,从数据出发 | 低 | 极低(受规则约束) | $1.00-$5.00 |
| 基于GPT的代理(无接地) | 纯LLM生成 | 无 | 高 | 低 |