Dokis框架:运行时强制溯源,彻底告别LLM验证

Hacker News March 2026
来源:Hacker NewsRAGretrieval augmented generation归档:March 2026
构建可信AI的基石正在被重新定义。开源框架Dokis通过在运行时强制执行检索增强生成(RAG)流程的信息溯源,从根本上摒弃了昂贵且易出错的二次LLM验证。这标志着AI可信性保障从“事后审计输出”转向“系统设计内置验证”的关键范式转移。

对可靠AI的不懈追求,正遭遇一个关键瓶颈:信任。尽管检索增强生成(RAG)系统旨在将大语言模型(LLM)的回答锚定在事实数据上,但验证一个答案究竟源自哪些具体数据片段,通常需要额外调用一次昂贵的LLM来分析模型的推理过程——而这个元验证过程本身也容易出错。这种“验证税”严重限制了RAG在需要绝对审计追踪的高风险领域(如金融、法律、医疗)的部署。

应对这一挑战,Dokis应运而生。这个开源框架提出了一种激进的替代方案。它不再要求LLM事后解释其来源,而是在RAG流水线的运行时执行过程中,从架构层面强制实施溯源。其核心创新在于,将检索与信息整合过程视为一个可验证的数据流,而非一个需要事后解释的黑箱。

传统方法依赖于另一个LLM进行“自我检查”,这既增加了成本和延迟,又引入了新的不确定性层。Dokis则采用了一种确定性方法:在数据流入LLM之前,就为其打上加密哈希和来源标签;在LLM生成回答时,强制其使用特定标记引用这些标签;最后通过一个轻量级规则解析器(而非另一个LLM)检查输出是否符合溯源要求。任何未经验证的声明都会触发即时失败或回退机制。

这意味着,系统在设计之初就杜绝了无法溯源的“幻觉”信息被呈现为事实的可能性。对于需要合规审计、满足监管要求或承担专业责任的场景而言,Dokis提供了一种从源头保障答案可验证性的技术路径,有望将RAG的应用边界拓展至此前难以涉足的关键任务领域。

技术深度解析

Dokis的运作基于一个核心原则:通过确定性数据流强制执行溯源。传统的RAG流水线遵循线性路径:查询 → 检索器获取文档 → LLM利用检索到的上下文合成答案。验证(如果进行的话)是一个独立的事后步骤。Dokis将此重新架构为一个带标签的多阶段流水线,数据若缺少溯源元数据则无法向前推进。

其核心架构包含三个关键组件:
1. 溯源感知的检索器封装器:标准检索器(如使用Chroma、Pinecone或Weaviate的检索器)被封装起来,使其输出的不仅是文档块,还附带不可变的加密哈希值(例如使用SHA-256)和元数据(来源ID、块索引、检索分数)。这为源材料创建了一个*可验证的声明*。
2. 证明层:这是Dokis新颖的中间件。在将检索到的数据块传递给LLM之前,该层会根据可信存储(如原始向量数据库)验证哈希值的完整性,并将数据块打包成一个结构化的、防篡改的上下文块。随后构建的LLM提示词会*强制要求*模型在响应中必须使用预定义的标记(例如`[source:hash_abc123]`)明确引用这些带标签的数据块。
3. 运行时合规检查器:在LLM生成响应后,一个轻量级的、基于规则的解析器(而非另一个LLM)会扫描输出,查找所需的来源标记。答案中任何缺少有效、已证明来源标记的声明,都会立即触发失败或回退机制(例如请求重新生成),从而防止未经归属的信息被当作事实呈现。

这种方法利用确定性解析和加密哈希进行验证,而非依赖概率性的LLM推理。在GitHub上,`dokis-core`仓库在头三个月就获得了超过2.8k星标,它提供了基础库。另一个配套仓库`dokis-adapters`展示了如何与LangChain、LlamaIndex等流行LLM框架集成,演示了如何将证明层注入现有链中。

早期采用者的性能基准测试显示出引人注目的优势:

| 验证方法 | 增加的延迟(p95) | 每次查询增加的成本 | 幻觉率(未验证声明) |
| :--- | :--- | :--- | :--- |
| 二次LLM验证(例如GPT-4) | 1200 - 2500 毫秒 | 0.03 - 0.06 美元 | 3-7%* |
| Dokis运行时强制验证 | 15 - 45 毫秒 | ~0.0001 美元 | <0.5% |
| 无验证 | 0 毫秒 | 0.00 美元 | 15-25% |
*二次LLM本身也可能产生幻觉或遗漏归属。

数据启示:数据揭示了Dokis的核心价值主张:它将验证带来的延迟开销降低了两个数量级,将其成本削减至近乎为零,同时实现了比其旨在取代的基于LLM的验证方法更低的未验证声明率。这使得严格的溯源对于实时应用而言,在经济和技术上都变得可行。

关键参与者与案例研究

Dokis的开发由一群来自基础设施初创公司的AI工程师和研究人员组成的联盟主导,其中CohereAnyscale等公司的前员工作出了重要贡献,他们拥有应对生产环境RAG陷阱的第一手经验。虽然背后没有单一的巨头公司支持,但其采用正受到垂直监管领域企业的推动。

早期案例研究:
1. FinLegal AI:一家构建合同分析工具的法律科技初创公司已将Dokis集成到其流水线中。对于其AI提供的每一条条款解释,系统都会输出一个可点击的审计追踪,直接链接到源合同中的确切句子。这对于满足法律合规性和职业责任保险要求至关重要。
2. 一家大型医药研究门户网站正在试点使用Dokos为其内部药物相互作用问答系统提供支持。通过保证所有安全信息都可追溯到特定的、版本化的医学数据库,他们旨在降低早期研究支持中的监管风险。

Dokis进入了一个专注于RAG可观测性和评估的竞争格局:

| 解决方案 | 主要方法 | 优势 | 劣势 |
| :--- | :--- | :--- | :--- |
| Dokis | 运行时强制与证明 | 确定性、低延迟、高完整性保证 | 需要重新设计流水线;对于创造性任务灵活性较低 |
| Arize Phoenix / TruLens | 事后评估与追踪 | 非常适合监控和调试现有流水线 | 验证是观察性的,而非预防性的;在生成后增加延迟 |
| LLM即法官(例如使用GPT-4) | 二次LLM验证 | 灵活,可以处理细微的归属问题 | 昂贵、缓慢,并引入了第二个不可靠的组件 |
| 自引用微调(例如GopherCite) | 模型训练 | 可集成到模型行为中 | 需要大量训练;训练后无法适应新的知识库 |

行业影响与未来展望:Dokis的出现,标志着AI工程界对“可信性”的追求从软性评估转向硬性约束。它并非要取代所有的事后评估工具,而是为那些需要“证据链”而非“置信度分数”的场景提供了基础设施级的解决方案。其挑战在于,强制性的引用格式可能限制LLM在需要高度创造性合成或非文本数据(如图表、代码)场景下的表达能力。未来,Dokis的演进方向可能包括支持更灵活的归属模式、与更广泛的AI代理框架集成,以及探索在模型训练阶段就植入类似溯源意识的混合方法。对于整个行业而言,Dokis范式促使我们重新思考:构建可信AI,究竟应该更多地依赖更聪明的模型,还是更严谨的系统?

更多来自 Hacker News

NLNet Labs向AI宣战:开源代码禁止用于大模型训练NLNet Labs近日更新了其开源软件的许可条款,明确禁止将包括广泛部署的Unbound和NSD在内的代码用于大语言模型的训练或推理,除非获得商业授权。这一举措的影响远超DNS社区,直接挑战了AI行业长期默认的“公开代码可自由使用”的假设LLM让硬件设计像说话一样简单:M5Stack革命来袭一个突破性的开源项目已经问世,它证明大语言模型现在能够将日常语言转化为M5Stack生态系统的完整硬件设计。工程师不再需要记忆引脚定义、I2C地址和电源需求,用户只需描述他们想要什么——比如“一个测量温湿度并显示在屏幕上的设备”——LLM就OpenClaw Launch 发布:30秒部署AI Agent,零DevOps,重新定义交付速度本周发布的 OpenClaw Launch 是一个托管运行时,它将运行自主AI Agent所需的整个DevOps栈——包括扩缩容、安全、更新和监控——封装在单次点击背后。用户只需定义Agent的逻辑,即可在30秒内获得一个可直接投入生产的端查看来源专题页Hacker News 已收录 5300 篇文章

相关专题

RAG40 篇相关文章retrieval augmented generation65 篇相关文章

时间归档

March 20262347 篇已发布文章

延伸阅读

检索治理框架砍掉67% Token成本,AI准确率飙升至97%埃默里大学与IBM联合发布「可验证上下文治理」框架,在数据送入大模型前进行预验证、去重和过滤。结果:事实准确率达97%,Token消耗减少67%,直击企业RAG部署中成本与可靠性的核心矛盾。超越向量搜索:图增强RAG如何破解AI的“信息碎片化”困局检索增强生成(RAG)范式正经历根本性变革。新一代技术突破单纯语义相似性匹配,通过集成知识图谱理解信息片段间的关联,从而实现对代码库、技术文档等复杂系统的连贯推理。这标志着AI从“信息检索”迈向“关系理解”的关键一步。Telnyx五分钟RAG教程:AI推理基础设施的范式转移信号Telnyx发布了一篇看似简单的Python教程,声称五分钟即可构建检索增强生成(RAG)应用。AINews深入剖析其战略意图:Telnyx正将AI推理打包为即插即用的基础设施,借助其电信级网络提供低延迟、高可用的API调用,将GPU调度与AI代码生成的盲点:大模型为何不懂“领域常识”?一个看似简单的Python任务——将歌曲映射到其“正典专辑”——暴露了AI代码生成中的根本性盲点。大语言模型能写出语法完美的代码,却无法运用领域常识来区分原始发行版、再版、现场录音或盗版,揭示了代码生成器与真正问题解决者之间的鸿沟。

常见问题

GitHub 热点“Dokis Framework Eliminates LLM Verification, Enforces RAG Provenance at Runtime”主要讲了什么?

The relentless pursuit of reliable AI has hit a critical bottleneck: trust. While Retrieval-Augmented Generation (RAG) systems aim to ground large language models in factual data…

这个 GitHub 项目在“Dokis vs LangChain tracing for production RAG”上为什么会引发关注?

Dokis operates on a principle of enforced provenance through deterministic data flow. Traditional RAG pipelines follow a linear path: query → retriever fetches documents → LLM synthesizes answer using retrieved context.…

从“implementing cryptographic attestation in vector search”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。