技术深度解析
下一代RAG的技术核心在于混合神经符号架构。它结合了神经嵌入的亚符号模式识别能力与图结构的符号化离散逻辑。
架构与算法:
典型处理流程包含四个关键阶段:
1. 图谱构建: 文档通过实体与关系抽取层进行处理。这可以使用微调后的LLM(如Llama 3或更小的模型如Mistral 7B)或专用抽取器(例如用于实体的spaCy、用于关系的REBEL)。输出结果是知识图谱(KG),其中节点是实体(函数、API、概念),边是带标签的关系(调用、导入、矛盾、先于)。
2. 双重索引: 同时为每个图节点(及其邻居)的关联文本和图结构本身建立索引。向量数据库(如Pinecone、Weaviate、Qdrant)存储节点文本的密集嵌入。图数据库(如Neo4j、TigerGraph、NebulaGraph)存储节点-边-节点的三元组。
3. 混合检索: 收到查询时,向量搜索首先返回语义最相似的K个节点。关键在于,这仅仅是种子集。随后,图遍历算法(如个性化PageRank、邻域采样或学习型路径查找模型)会探索这些种子周围的局部图谱,检索出一个连通的子图。最终的检索评分是语义相似性与图连接重要性加权组合的结果。
4. 情境化合成: LLM接收到的不仅仅是文本块列表,还是一个包含检索到的子图(通常序列化为文本或类似Cypher查询结果的格式)以及指导其基于关系进行推理指令的结构化提示。高级系统使用图感知微调或提示技术来教导LLM解读图结构。
关键GitHub仓库:
- `text2graph`:一个快速增长(2.1k星标)的仓库,提供使用LLM将各类文档(PDF、代码)转换为知识图谱的流水线,并内置对流行图数据库的支持。
- `GraphRAG`(来自微软研究院):一个开创性的开源项目(3.8k星标),展示了从大型文档集无监督创建社区级知识图谱,并利用图机器学习进行检索的能力。它证明了基于图的检索在处理复杂多跳查询时优于纯向量搜索。
- `LlamaIndex`:虽然主要是一个RAG框架,但其近期版本已深度集成知识图谱索引(`KnowledgeGraphIndex`),允许开发者在RAG流水线中构建和查询知识图谱,大大降低了该技术的使用门槛。
性能基准测试:
在复杂QA数据集上的早期基准测试凸显了权衡与优势。
| 检索方法 | HotpotQA(准确率) | 2WikiMultihopQA(F1分数) | 延迟(毫秒) | 单查询成本(相对值) |
|---|---|---|---|---|
| 纯向量搜索 | 45.2 | 38.7 | 120 | 1.0x |
| 混合图+向量 | 62.1 | 55.4 | 210 | 1.8x |
| 知识图谱QA(无向量) | 58.3 | 51.2 | 180 | 1.5x |
*数据洞察:* 混合图+向量方法相比纯向量搜索带来了显著的准确率提升(在多跳任务上高达约37%),证实了其在关系推理方面的优势。然而,这也伴随着延迟和计算成本的增加,勾勒出主要的工程权衡点。
主要参与者与案例研究
这场变革由老牌云服务提供商和敏捷的初创公司共同推动,各自策略鲜明。
云巨头与研究实验室:
- 微软是领跑者,其GraphRAG研究以及将图能力深度集成到Azure AI服务(结合了图功能的Azure Cosmos DB + Azure Cognitive Search)中便是明证。他们与内部产品组的案例研究表明,在技术支持知识库中使用图增强RAG后,“碎片化答案”类工单减少了40%。
- 谷歌正利用其在知识图谱和Gemini模型方面的专长。Vertex AI现已提供实体提取功能,并推荐将知识图谱搜索API与向量搜索结合使用,尽管完全集成的产品仍在发展中。
- AWS采取合作伙伴与工具化策略,推广Amazon Neptune(图数据库)与Bedrock的知识库相结合,并提供了构建混合检索系统的详细参考架构。
专业初创公司:
- Kumo.ai瞄准企业客户,其平台能自动从企业数据孤岛构建领域特定知识图谱,并为LLM提供图原生查询层。他们声称,其方法将为一个复杂SaaS产品构建客户支持智能体的时间从数月缩短至数周。
- Stardog已将其企业知识图谱平台转型为LLM推理的基础层,强调“连接即上下文”。
- Weaviate引入了“混合搜索”能力,将向量搜索与基于关键词和图遍历的过滤相结合,提供了灵活的实现路径。