技术深度解析
AnySearch的架构代表了对搜索堆栈的根本性重新思考。传统搜索引擎如Google或Bing基于倒排索引运作:它们爬取网页,对文本进行分词,并构建从词条到文档ID的映射。随后使用PageRank、TF-IDF和用户参与度指标等信号进行排序。这一系统是为人类扫描结果列表并点击最有希望的链接而优化的。
AnySearch用一个专为机器消费设计的多阶段流水线取代了上述模式。第一阶段是实体提取与消歧。当文档被爬取后,它会通过一个命名实体识别(NER)模型——很可能基于微调的Transformer架构——来识别人物、组织、地点和事件等实体。这些实体随后通过图神经网络(GNN)链接到全局知识图谱,以解决歧义问题(例如,“Apple”指水果还是公司)。
第二阶段是关系提取。除了识别实体,系统还必须理解它们之间的关系。例如,从句子“Sam Altman于2023年11月被OpenAI董事会解雇”中,AnySearch提取出一个三元组:(Sam Altman, 被解雇于, OpenAI董事会),并附带时间属性(2023年11月)。这是一个非平凡的自然语言理解(NLU)问题,AnySearch很可能结合了依存句法分析和自定义训练的关系提取模型。
第三阶段是事实验证与置信度评分。并非所有提取的事实都同样可靠。AnySearch基于来源权威性、跨文档交叉验证以及时间新鲜度来分配置信度分数。单个博客文章报道的事实得分低于三个知名新闻来源确认的事实。这对于需要基于可靠数据做出决策的AI代理至关重要。
最后阶段是图查询执行。当开发者发送查询时,它会被解析为结构化图查询(类似于SPARQL,但针对延迟进行了优化)。系统随后遍历知识图谱以检索相关实体和关系,并以JSON对象形式返回。对于结构化查询而言,这比传统搜索快数个数量级,因为它避免了昂贵的文档排序步骤。
相关开源项目:
感兴趣的开发者可以探索以下底层技术:
- DBpedia(GitHub: dbpedia/extraction-framework):一个从Wikipedia提取结构化数据的社区项目。虽然不如AnySearch复杂,但它展示了实体提取流水线。
- OpenKE(GitHub: thunlp/OpenKE):一个开源知识嵌入工具包,提供了AnySearch可能使用的图表示学习技术。
- Haystack(GitHub: deepset-ai/haystack):一个使用LLM构建搜索系统的框架。虽然不是直接竞争对手,但它展示了开发者目前如何拼凑自定义解决方案来实现代理友好的搜索。
性能数据:
| 指标 | AnySearch(代理查询) | 传统搜索(API) | 提升幅度 |
|---|---|---|---|
| 延迟(p50) | 120ms | 350ms | 快2.9倍 |
| 结构化输出准确率 | 94.2% | 62.1% | 提升51.6% |
| 每次响应平均Token数 | 180 tokens | 2,400 tokens | 效率提升13.3倍 |
| 实体解析率 | 97.8% | 73.4% | 提升33.2% |
数据要点: 延迟的改善虽然显著但并非革命性;真正的颠覆在于结构化输出准确率和Token效率。对于一个AI代理而言,接收180个Token的结构化JSON而非2,400个Token的嘈杂HTML,意味着成本大幅降低(处理的LLM Token更少)和任务完成率显著提高。这就是经济护城河。
关键玩家与案例研究
AnySearch进入了一个迅速升温的领域。多家老牌企业和初创公司正在争夺成为AI代理的默认数据层。
竞争格局:
| 产品 | 方法 | 优势 | 劣势 | 定价模式 |
|---|---|---|---|---|
| AnySearch | 自定义知识图谱 + 实体提取 | 高准确率、低延迟、代理原生 | 新平台、覆盖范围有限、无人类界面 | API调用 + 数据管道 |
| Google Custom Search API | 传统索引 + JSON输出 | 海量覆盖、成熟基础设施 | 返回链接而非实体;大规模使用成本高 | 按查询付费(每1000次查询5美元) |
| Bing Web Search API | 传统索引 + 实体提取 | 热门话题的实体数据良好 | 实体质量不一致,仍以链接为中心 | 按查询付费(每1000次查询7美元) |
| Brave Search API | 隐私优先索引 + Goggles | 成本较低、开放索引 | 索引较小、实体支持较弱 | 按查询付费(每1000次查询3美元) |
| You.com API | LLM驱动的搜索 + 摘要 | 适合自然语言查询 | 进行摘要而非结构化;延迟高 | 订阅制(每月20美元) |
数据要点: AnySearch在结构化输出准确率和Token效率方面的优势,使其在AI代理工作流中具有显著的成本和性能优势。然而,其覆盖范围的局限性意味着它目前更适合垂直领域应用,而非通用搜索。随着平台的发展,它必须解决冷启动问题——即如何为长尾查询提供准确的结构化数据。