Kagi Snaps 重新定义搜索:当 AI 学会“看懂”图像

Hacker News May 2026
来源:Hacker News归档:May 2026
Kagi 推出 Snaps 功能,将多模态 AI 直接嵌入搜索管道,使搜索引擎不仅能检索图像,还能理解其内容、生成上下文摘要并阐释其意义。这标志着搜索从“检索工具”向“理解引擎”的进化,背后是订阅制模式对广告收入模式的彻底颠覆。

Kagi,这家以无广告、隐私优先著称的订阅制搜索引擎,近日发布了 Snaps 功能,从根本上重新构想了搜索引擎与视觉数据的交互方式。与传统的图像搜索不同——后者仅返回基于元数据和 alt 文本匹配的缩略图——Snaps 利用多模态大语言模型(MLLM)分析图像的实际内容:物体、文字、场景,甚至隐含的叙事,并返回一段人类可读的摘要,解释图像的含义及其重要性。

这并非一次小功能更新,而是对搜索核心逻辑的结构性重塑。传统搜索将图像视为带有标签和链接的文件,根据关键词相关性和反向链接权威性进行排序。而 Snaps 将图像视为需要被理解的数据。当用户搜索时,Kagi 的后端会将排名靠前的图像候选通过 MLLM 处理,生成自然语言摘要,描述图像内容、提取文字(OCR)、识别物体和场景,并推断上下文或叙事。

这一转变的核心在于:搜索不再只是“找到”信息,而是“理解”信息。Kagi 的订阅模式使其无需依赖广告收入,从而可以优先考虑用户体验的深度和准确性,而非点击率。Snaps 的推出,意味着用户无需再通过点击链接、阅读页面来拼凑图像的含义——搜索引擎直接告诉你答案。

技术深度解析

Kagi Snaps 代表了与传统图像搜索架构的重大工程分水岭。传统系统(如 Google Images 或 Bing Visual Search)依赖以下管道:(1)图像摄取与元数据提取;(2)特征向量生成(例如通过 ResNet 或 CLIP 嵌入);(3)在向量数据库中进行近似最近邻搜索;(4)基于文本相关性信号和 PageRank 式链接权威性进行排序。图像本身从未被“理解”——它只是被匹配。

相比之下,Snaps 将多模态大语言模型(MLLM)直接集成到搜索响应路径中。当用户执行搜索并返回图像时,Kagi 的后端将排名靠前的图像候选通过 MLLM 处理(很可能是 LLaVA 或 GPT-4V 的精调变体,尽管 Kagi 未披露具体模型)。MLLM 联合处理图像像素和用户查询文本,生成自然语言摘要,描述图像内容、提取文字(OCR)、识别物体和场景,并推断上下文或叙事。

关键的工程挑战是延迟。即使在优化硬件上,对高分辨率图像进行一次完整的 MLLM 推理可能需要 2-5 秒。为了使 Snaps 感觉即时,Kagi 可能采用了多种优化技术:
- 推测解码:系统在空闲计算周期内预先生成搜索索引中前 N 个图像的摘要,并缓存以供即时检索。
- 自适应分辨率:初始推理使用低分辨率缩略图,仅在处理复杂图像(如密集图表或文字密集的幻灯片)时才触发高分辨率推理。
- 模型蒸馏:较小的、更快的“学生”模型(例如 7B 参数)处理大多数查询,而较大的“教师”模型(例如 70B 参数)仅在边缘情况或置信度较低时被调用。

这一方法的开源参考是 LLaVA 仓库(GitHub: haotian-liu/LLaVA,目前 20k+ 星标),它展示了多模态数据的视觉指令微调。另一个相关项目是 CogVLM(GitHub: THUDM/CogVLM,15k+ 星标),它使用视觉专家模块实现深度图像理解。这些仓库提供了像 Snaps 这样的生产系统可以构建的基础架构,并在此基础上添加缓存、延迟优化和搜索特定的排序集成。

| 优化技术 | 延迟降低 | 质量权衡 | 部署复杂度 |
|---|---|---|---|
| 推测解码(预缓存) | 60-80% | 对快速变化的图像可能产生过时摘要 | 中等(需要缓存失效逻辑) |
| 自适应分辨率 | 40-60% | 低分辨率推理时轻微精度损失 | 低(简单的分辨率阈值) |
| 模型蒸馏(7B vs 70B) | 50-70% | 复杂查询上 5-10% 的精度下降 | 高(需要训练管道) |

数据要点: 对于静态或缓慢变化的图像,推测解码提供了最佳的延迟增益,同时质量退化最小,使其成为 Kagi 技术栈中最可能的主要优化手段。这种权衡是可接受的,因为大多数搜索图像(例如历史照片、产品图片)不会频繁更新。

关键玩家与案例研究

Kagi 并非唯一探索多模态搜索的玩家,但其订阅制、无广告的模式使其独树一帜。以下是竞争格局的分解:

- Google Lens / Google Multisearch:Google 的视觉搜索工具结合了 OCR、物体检测和文本到图像匹配。它在识别物体和翻译文字方面表现出色,但不会生成上下文摘要或解释“这意味着什么”。它仍然依赖广告支持,因此用户体验针对点击率而非理解深度进行了优化。
- Microsoft Bing Visual Search / Copilot:Bing 在其 Copilot 聊天界面中集成了 GPT-4V 进行图像理解。用户可以上传图像并提问。然而,这是一个对话式功能,并未集成到核心搜索结果页面中。它需要用户明确操作(上传或点击),并且不会自动应用于每个图像结果。
- Perplexity AI:Perplexity 的搜索引擎使用多模态模型来回答带有图像的查询,但其重点是基于文本的答案并辅以支持性图像,而非分析作为搜索结果返回的图像。
- You.com:在其聊天界面中提供多模态能力,类似于 Bing Copilot,但缺乏在搜索结果页面上的自动图像分析。

| 功能 | Kagi Snaps | Google Lens | Bing Visual Search | Perplexity AI |
|---|---|---|---|---|
| 在 SERP 上自动分析图像 | 是 | 否(需要点击) | 否(需要上传) | 否 |
| 生成上下文摘要 | 是 | 否 | 是(在聊天中) | 是(在答案中) |
| 无广告体验 | 是 | 否 | 否 | 是(付费版) |
| 需要订阅 | 是 | 否 | 否 | 可选 |
| 典型延迟 | ~1-2 秒 | ~0.5 秒 | ~2-5 秒 | ~3-8 秒 |

更多来自 Hacker News

660个AI代理狂跑2.7万次实验,最终“重大突破”竟是2015年教科书结论在一场迄今为止最具雄心的多代理自动化演示中,660个AI代理独立编排了从假设生成、实验设计到执行与分析的完整科学工作流,完成了超过2.7万次实验。其规模与自主性前所未有:没有任何人类介入循环。然而,最受追捧的“发现”最终被证实是2015年教EPI黑匣子:AI代理企业信任与合规的缺失拼图多年来,AI代理生态系统一直陷入原始能力的竞赛:更长的上下文窗口、更智能的工具调用以及更自主的推理。但一个关键的盲点始终存在——问责制。如果没有机制来证明代理做了什么、为什么这么做以及记录未被篡改,在金融、医疗和法律等受监管行业部署代理仍是无标题In 1995, 'Northern Exposure' ended its six-season run on CBS, a quirky, slow-moving tale of a New York doctor transplant查看来源专题页Hacker News 已收录 3550 篇文章

时间归档

May 20261850 篇已发布文章

延伸阅读

Northern Exposure in the AI Era: Why Imperfection and Serendipity Matter More Than EfficiencyTwenty-five years after its quiet finale, the slow-burn, magical realist drama 'Northern Exposure' is experiencing a cul带安全缰绳的AI交易员:自主交易代理如何驯服金融市场的失控风险金融科技正经历一场静默革命:配备安全护栏的自主交易代理已真实部署于市场。这些由大语言模型驱动的系统在硬性风险约束下独立执行策略,彻底解决了AI能力与不可控风险之间的核心矛盾。加密已不再是问题:安全通信的真正战场刚刚开启端到端加密已成为通信应用的标配,但真正的安全前沿早已超越密码学本身。身份验证、元数据保护、跨平台互通以及可持续商业模式,这些“脏活累活”才是决定谁能活到最后的胜负手。AINews 深度拆解加密通信的下半场。英伟达市值超越德国GDP:AI经济改写全球秩序英伟达市值现已超过德国全年GDP,这一里程碑式的事件重新定义了AI基础设施相对于传统工业经济的价值。这并非股市异常,而是一个信号:全球经济重心正从钢铁与引擎转向硅片与算法。

常见问题

这次公司发布“Kagi Snaps Redefines Search: When AI Learns to See and Understand Images”主要讲了什么?

Kagi, the subscription-based search engine known for its ad-free, privacy-first approach, has unveiled Snaps, a feature that fundamentally reimagines how search engines interact wi…

从“How Kagi Snaps compares to Google Lens for image search”看,这家公司的这次发布为什么值得关注?

Kagi Snaps represents a significant engineering departure from conventional image search architectures. Traditional systems like Google Images or Bing Visual Search rely on a pipeline of: (1) image ingestion with metadat…

围绕“Kagi Snaps subscription cost vs Perplexity Pro”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。