向量搜索的终结？AI智能体如何抛弃嵌入技术，转向直接推理

多年来，构建一个知识渊博的AI智能体遵循着一套标准配方：将文本分块，通过类似OpenAI的text-embedding-ada-002等模型生成嵌入向量，将向量存储在Pinecone或Weaviate等数据库中，最后通过余弦相似度进行检索。这种语义搜索范式支撑了从聊天机器人到内部知识助手的一切应用。然而，AINews发现，领先的工程团队间正形成一种日益增长的共识：这种方法已触及根本性的天花板。生成嵌入向量和执行最近邻搜索所带来的计算开销，在需要实时、多步推理的场景中引入了难以接受的延迟。更关键的是，其核心假设——语义相似性等同于任务相关性——存在根本缺陷。一个智能体检索到与用户查询‘相似’的文档，并不代表该文档能有效解决问题。这种不匹配在复杂任务中尤为明显，导致幻觉、无关响应或关键信息遗漏。因此，一场向‘直接推理’架构的迁移正在发生。新范式让LLM本身承担检索决策，将其用作意图分类器或路由器，直接调用工具、API或数据库，从而绕过传统的向量检索步骤。这不仅显著降低了延迟，更通过确定性的规则或分类逻辑，大幅提升了系统行为的可靠性与可预测性。

技术深度解析

传统的基于嵌入的检索增强生成（RAG）流程涉及多个高成本步骤：文档预处理与分块、通过独立模型生成嵌入向量（例如来自`text-embedding-ada-002`的1536维向量）、在专用向量数据库中建立索引，最后在查询时对用户输入生成嵌入向量并进行k近邻（k-NN）搜索。每一步都增加了延迟和潜在的故障点。

新兴的‘去嵌入化’架构则大幅压缩了这一流程。其核心创新在于，让承担推理任务的主LLM同时处理检索决策。这得益于两项关键技术进步：

1. 结构化输出与函数调用：如今可以指令LLM输出严格格式化的JSON，指定函数名称和参数。模型充当分类器，将自然语言意图映射到一组离散的工具或知识源。例如，像“我们欧洲区第三季度的营收是多少？”这样的查询，可以直接被解析为对`query_financial_database`函数的调用，并附带结构化参数`{"region": "Europe", "quarter": "Q3", "metric": "revenue"}`。
2. LLM即法官与路由网络：更复杂的系统采用一个轻量级的‘路由器’LLM，或在主模型内设置专用分类层，以在不同路径间做出选择。微软关于“LLM路由”的研究展示了如何训练小型、快速的模型，将查询直接导向最合适的专用智能体或数据源，完全绕开语义搜索。

一个相关的开源项目是`dspy`（Demonstrate-Search-Predict），这是斯坦福NLP团队推出的一个重新思考检索的框架。它摒弃了固定的嵌入向量，允许LLM*编程*自己的检索步骤，优化发送给搜索系统的查询。另一个例子是`LangChain`在其较新的智能体实现中，对“基于LLM的路由”不断演进的支持，逐渐远离纯粹的向量存储检索。

性能差距是显著的。以一个简单的智能体任务为例，对比延迟分解：

| 架构步骤 | 基于嵌入的RAG | 直接LLM路由 |
|---|---|---|
| 查询嵌入生成 | 80-150 毫秒 | 0 毫秒 |
| 向量搜索（k-NN） | 20-100 毫秒 | 0 毫秒 |
| LLM上下文处理 | 50 毫秒 | 50 毫秒 |
| LLM生成与推理 | 500 毫秒 | 550 毫秒（包含路由逻辑） |
| 总延迟（约） | 650-800 毫秒 | ~600 毫秒 |
| 确定性 | 低（取决于分块与相似度） | 高（基于规则的路由） |

数据要点：直接路由架构消除了两个高延迟步骤（嵌入+搜索），使总响应时间减少10-25%。更重要的是，它用确定性的分类取代了多变的语义相似性匹配，从而极大提升了可靠性。

关键参与者与案例研究

这一变革由基础设施公司和前沿AI实验室共同引领。OpenAI在其API中大力投资于强大的函数调用能力，是直接的推动者。其`gpt-4-turbo`模型可以在单轮对话中调用多个函数，从而有效地编排复杂工作流，无需外部检索步骤。

Anthropic的Claude 3模型展现出卓越的指令遵循和结构化输出生成能力，使其特别适合这一范式。开发者报告称，他们使用Claude分析用户请求，并直接输出SQL查询或API调用规范，完全绕过了向量知识库。

Cognition Labs，即AI软件工程师Devin的创造者，是这一理念的典范。尽管其技术细节未完全公开，但对其能力的分析表明，它使用LLM驱动的规划来直接导航代码库和工具（终端、浏览器），而非依赖对所有代码建立的向量索引记忆。

初创公司正围绕这一概念构建完整平台。`E2B`为AI智能体提供云环境，智能体的LLM直接生成并执行代码，将工具（如Python解释器）视为可调用函数。`Fixie.ai`的智能体平台强调通过连接器将LLM直接连接到数据源，利用LLM为每个系统制定精确的查询。

一个引人注目的案例是可汗学院的`Khanmigo`教学助手。早期原型在教育内容上使用了RAG。然而，在引导学生解决多步骤数学问题时，检索一个‘相似’的已解决问题，其效果远不如让LLM遵循一个确定性的教学决策树，并在精确时刻调用特定的计算器或图表绘制工具。

| 公司/项目 | 主要方法 | 关键差异化优势 |
|---|---|---|
| OpenAI (GPT-4 Turbo) | 增强的函数调用 | 原生、可靠的结构化JSON输出，便于工具使用。 |
| Anthropic (Claude 3) | 宪法AI与结构化 | 在遵循复杂路由指令方面具有高准确性。 |
| Cognition Labs (Devin) | LLM驱动的规划 | 直接编排工具（浏览器、终端、代码编辑器），实现端到端任务执行。 |
| E2B | 代码即工具 | 将云环境作为函数暴露给LLM，实现直接执行。 |
| Fixie.ai | 连接器与直接查询 | LLM为每个后端数据源生成精准查询，取代通用语义搜索。 |
| Khan Academy (Khanmigo) | 教学决策树 | 确定性教学逻辑优先于内容相似性检索。 |

常见问题

这次模型发布“The End of Vector Search? How AI Agents Are Ditching Embeddings for Direct Reasoning”的核心内容是什么？

For years, building a knowledgeable AI agent followed a standard recipe: chunk text, generate embeddings via models like OpenAI's text-embedding-ada-002, store vectors in databases…

从“OpenAI GPT-4 function calling vs vector search performance”看，这个模型发布为什么重要？

The traditional embedding-based retrieval-augmented generation (RAG) pipeline involves several costly steps: document preprocessing and chunking, embedding generation via a separate model (e.g., a 1536-dimensional vector…

围绕“how to build AI agent without Pinecone or Weaviate”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。