技术深度解析
传统的基于嵌入的检索增强生成(RAG)流程涉及多个高成本步骤:文档预处理与分块、通过独立模型生成嵌入向量(例如来自`text-embedding-ada-002`的1536维向量)、在专用向量数据库中建立索引,最后在查询时对用户输入生成嵌入向量并进行k近邻(k-NN)搜索。每一步都增加了延迟和潜在的故障点。
新兴的‘去嵌入化’架构则大幅压缩了这一流程。其核心创新在于,让承担推理任务的主LLM同时处理检索决策。这得益于两项关键技术进步:
1. 结构化输出与函数调用:如今可以指令LLM输出严格格式化的JSON,指定函数名称和参数。模型充当分类器,将自然语言意图映射到一组离散的工具或知识源。例如,像“我们欧洲区第三季度的营收是多少?”这样的查询,可以直接被解析为对`query_financial_database`函数的调用,并附带结构化参数`{"region": "Europe", "quarter": "Q3", "metric": "revenue"}`。
2. LLM即法官与路由网络:更复杂的系统采用一个轻量级的‘路由器’LLM,或在主模型内设置专用分类层,以在不同路径间做出选择。微软关于“LLM路由”的研究展示了如何训练小型、快速的模型,将查询直接导向最合适的专用智能体或数据源,完全绕开语义搜索。
一个相关的开源项目是`dspy`(Demonstrate-Search-Predict),这是斯坦福NLP团队推出的一个重新思考检索的框架。它摒弃了固定的嵌入向量,允许LLM*编程*自己的检索步骤,优化发送给搜索系统的查询。另一个例子是`LangChain`在其较新的智能体实现中,对“基于LLM的路由”不断演进的支持,逐渐远离纯粹的向量存储检索。
性能差距是显著的。以一个简单的智能体任务为例,对比延迟分解:
| 架构步骤 | 基于嵌入的RAG | 直接LLM路由 |
|---|---|---|
| 查询嵌入生成 | 80-150 毫秒 | 0 毫秒 |
| 向量搜索(k-NN) | 20-100 毫秒 | 0 毫秒 |
| LLM上下文处理 | 50 毫秒 | 50 毫秒 |
| LLM生成与推理 | 500 毫秒 | 550 毫秒(包含路由逻辑) |
| 总延迟(约) | 650-800 毫秒 | ~600 毫秒 |
| 确定性 | 低(取决于分块与相似度) | 高(基于规则的路由) |
数据要点:直接路由架构消除了两个高延迟步骤(嵌入+搜索),使总响应时间减少10-25%。更重要的是,它用确定性的分类取代了多变的语义相似性匹配,从而极大提升了可靠性。
关键参与者与案例研究
这一变革由基础设施公司和前沿AI实验室共同引领。OpenAI在其API中大力投资于强大的函数调用能力,是直接的推动者。其`gpt-4-turbo`模型可以在单轮对话中调用多个函数,从而有效地编排复杂工作流,无需外部检索步骤。
Anthropic的Claude 3模型展现出卓越的指令遵循和结构化输出生成能力,使其特别适合这一范式。开发者报告称,他们使用Claude分析用户请求,并直接输出SQL查询或API调用规范,完全绕过了向量知识库。
Cognition Labs,即AI软件工程师Devin的创造者,是这一理念的典范。尽管其技术细节未完全公开,但对其能力的分析表明,它使用LLM驱动的规划来直接导航代码库和工具(终端、浏览器),而非依赖对所有代码建立的向量索引记忆。
初创公司正围绕这一概念构建完整平台。`E2B`为AI智能体提供云环境,智能体的LLM直接生成并执行代码,将工具(如Python解释器)视为可调用函数。`Fixie.ai`的智能体平台强调通过连接器将LLM直接连接到数据源,利用LLM为每个系统制定精确的查询。
一个引人注目的案例是可汗学院的`Khanmigo`教学助手。早期原型在教育内容上使用了RAG。然而,在引导学生解决多步骤数学问题时,检索一个‘相似’的已解决问题,其效果远不如让LLM遵循一个确定性的教学决策树,并在精确时刻调用特定的计算器或图表绘制工具。
| 公司/项目 | 主要方法 | 关键差异化优势 |
|---|---|---|
| OpenAI (GPT-4 Turbo) | 增强的函数调用 | 原生、可靠的结构化JSON输出,便于工具使用。 |
| Anthropic (Claude 3) | 宪法AI与结构化 | 在遵循复杂路由指令方面具有高准确性。 |
| Cognition Labs (Devin) | LLM驱动的规划 | 直接编排工具(浏览器、终端、代码编辑器),实现端到端任务执行。 |
| E2B | 代码即工具 | 将云环境作为函数暴露给LLM,实现直接执行。 |
| Fixie.ai | 连接器与直接查询 | LLM为每个后端数据源生成精准查询,取代通用语义搜索。 |
| Khan Academy (Khanmigo) | 教学决策树 | 确定性教学逻辑优先于内容相似性检索。 |