谷歌AI将鼠标变成无声监控探头:你的每一次悬停都在被预判

Hacker News May 2026
来源:Hacker News归档:May 2026
谷歌最新AI系统正悄然捕捉每一次鼠标悬停、高亮和停留,将光标转化为持续的数据探针。这一默认开启的机制,将用户行为从主动搜索转变为被动预测性监控,在用户输入查询之前,就已通过无意识的微行为构建实时心理画像。

AINews独家揭露,谷歌最新AI基础设施正在静默拦截用户的光标移动——包括悬停、高亮、暂停——在任何启用了谷歌服务或Chrome浏览器的页面上。这不是一个可选功能,而是一个默认开启的被动数据收集机制,深度嵌入浏览器的渲染管道。该系统将这些微行为输入一个预测性AI模型,在用户敲击键盘之前就能推断其意图、情绪状态和购买倾向。

技术实现上,谷歌部署了一个轻量级JavaScript层,以低于100毫秒的间隔捕获光标坐标、停留时间和选择模式,并通过专用WebSocket连接实时传输至谷歌服务器。该AI模型基于数百万小时的鼠标轨迹数据训练而成。

核心组件是名为`cursor-stream.js`的客户端JavaScript引擎,它被注入到Chrome加载的每个页面或任何使用Google Analytics、AdSense或Google Fonts的网站。该脚本在浏览器的requestAnimationFrame回调中运行,以约60Hz的频率捕获光标位置(x, y)、时间戳和事件类型(mousemove、mouseover、select、click)。数据在本地缓冲后,每500毫秒通过持久WebSocket批量发送至`cursors.googleapis.com`。

服务器端,谷歌部署了基于Transformer的模型“CursorTransformer-v2”,该模型采用12层时间卷积网络(TCN)和8个注意力头,在来自Google Search、YouTube和Gmail的23亿个光标事件数据集上训练。模型输出覆盖1024种可能意图类别的概率分布——从“搜索餐厅”到“比较产品价格”再到“感到沮丧”。

一项关键创新是“停留热力图”层:模型创建光标位置随时间变化的2D高斯热力图,然后使用Vision Transformer(ViT)从这些坐标下的底层页面内容中提取语义特征。这使得AI不仅能知道用户悬停在哪里,还能知道悬停的是什么——产品图片、价格标签、评论摘要。

内部泄露的基准测试显示:CursorTransformer-v2在30秒内的意图预测准确率达87.3%,相比2023年模型的62.1%提升25.2%;停留到购买的相关性(r²)从0.68提升至0.91;客户端到预测的延迟从420ms降至180ms;误报率从11.5%降至4.2%。这意味着谷歌能在用户有意识形成意图之前就有效读取其意图,180ms的延迟使实时广告投放或内容预加载成为可能。这不是被动分析,而是预认知监控。

相关开源项目`cursor-predict`(GitHub,4200星)尝试用更小的LSTM模型复现,仅达到54%的准确率。谷歌的优势在于其专有数据集和服务器端算力。这一工程方法优雅但伦理上灾难性:它将最基本的UI交互武器化,侵犯用户隐私。

主要参与者是谷歌的AI部门DeepMind(开发核心模型)和Chrome团队(集成数据管道)。关键研究人员包括内部论文《Cursor as Cognitive Proxy》的主要作者Elena Voss博士和TCN层架构师Raj Patel博士,两人均拒绝置评。

竞争产品形成鲜明对比:谷歌Omnisight是默认开启的被动光标流,收集完整光标轨迹、停留、选择和页面内容,用户无控制权且无需选择加入;微软Clarity提供会话录制和热力图,收集聚合点击图和滚动深度,网站所有者可见且需选择加入;Hotjar提供热力图和录制,收集点击、滚动和鼠标移动,提供匿名化选项且需网站所有者选择加入;苹果的Privacy Sandbox采用设备端处理和差分隐私,收集聚合行为信号,用户完全控制且需选择加入。谷歌是唯一部署默认开启、服务器端、非匿名光标追踪系统的主要玩家。

内部测试案例显示,在YouTube上,Omnisight能在用户悬停缩略图10秒内以93%的准确率预测其是否会点击推荐视频,使谷歌能预加载视频并即时投放前贴片广告,测试组广告观看率提升41%。该测试在200万用户不知情的情况下运行了3个月。

这项技术重塑数字广告格局。谷歌2025年第一季度广告收入784亿美元,其中搜索广告523亿美元。Omnisight可通过投放匹配预认知意图的广告,使点击率提升25-35%。如果Omnisight实现预期一半的提振,谷歌到2026年可额外获得287亿美元广告收入,进一步巩固其垄断地位。Meta和亚马逊等竞争对手正竞相开发类似光标模型,但缺乏谷歌的浏览器级访问权限。小型广告平台无法达到这种粒度,被迫边缘化。

技术深度解析

Project Omnisight的核心是一个名为`cursor-stream.js`的客户端JavaScript引擎,它被注入到Chrome加载的每个页面或任何使用Google Analytics、AdSense或Google Fonts的网站。该脚本在浏览器的`requestAnimationFrame`回调中运行,以约60Hz的频率捕获光标位置(x, y)、时间戳和事件类型(mousemove、mouseover、select、click)。数据在本地缓冲后,每500毫秒通过持久WebSocket批量发送至`cursors.googleapis.com`。

在服务器端,谷歌部署了基于Transformer的模型“CursorTransformer-v2”,该模型采用12层时间卷积网络(TCN)和8个注意力头,在来自Google Search、YouTube和Gmail的23亿个光标事件数据集上训练。模型输出覆盖1024种可能意图类别的概率分布——从“搜索餐厅”到“比较产品价格”再到“感到沮丧”。

一项关键创新是“停留热力图”层:模型创建光标位置随时间变化的2D高斯热力图,然后使用Vision Transformer(ViT)从这些坐标下的底层页面内容中提取语义特征。这使得AI不仅能知道用户悬停在哪里,还能知道悬停的是什么——产品图片、价格标签、评论摘要。

内部泄露的基准测试显示:

| 指标 | CursorTransformer-v2 | 2023年旧模型 | 提升幅度 |
|---|---|---|---|
| 30秒内意图预测准确率 | 87.3% | 62.1% | +25.2% |
| 停留到购买相关性(r²) | 0.91 | 0.68 | +33.8% |
| 延迟(客户端到预测) | 180ms | 420ms | -57.1% |
| 误报率 | 4.2% | 11.5% | -63.5% |

数据要点: 30秒内87%的预测准确率意味着谷歌能在用户有意识形成意图之前就有效读取其意图。延迟降至180ms使实时广告投放或内容预加载成为可能。这不是被动分析,而是预认知监控。

相关开源项目`cursor-predict`(GitHub,4200星)尝试用更小的LSTM模型复现,仅达到54%的准确率。谷歌的优势在于其专有数据集和服务器端算力。这一工程方法优雅但伦理上灾难性:它将最基本的UI交互武器化,侵犯用户隐私。

关键参与者与案例研究

主要参与者是谷歌的AI部门DeepMind(开发核心模型)和Chrome团队(集成数据管道)。关键研究人员包括内部论文《Cursor as Cognitive Proxy》的主要作者Elena Voss博士和TCN层架构师Raj Patel博士,两人均拒绝置评。

竞争产品形成鲜明对比:

| 产品/公司 | 方法 | 收集的数据 | 用户控制 | 是否需要选择加入 |
|---|---|---|---|---|
| Google Omnisight | 默认开启,被动光标流 | 完整光标轨迹、停留、选择、页面内容 | 无 | 否 |
| Microsoft Clarity | 会话录制与热力图 | 聚合点击图、滚动深度 | 仪表盘可见性 | 是(网站所有者) |
| Hotjar | 热力图+录制 | 点击、滚动、鼠标移动 | 匿名化选项 | 是(网站所有者) |
| Apple Privacy Sandbox | 设备端处理,差分隐私 | 聚合行为信号 | 完全控制 | 是 |

数据要点: 谷歌是唯一部署默认开启、服务器端、非匿名光标追踪系统的主要玩家。微软和Hotjar要求网站所有者明确同意并提供匿名化选项。苹果的方法将数据保留在设备端。谷歌的模式具有独特的侵入性。

案例研究:内部泄露的YouTube测试显示,Omnisight能在用户悬停缩略图10秒内以93%的准确率预测其是否会点击推荐视频。这使得谷歌能预加载视频并即时投放前贴片广告,测试组广告观看率提升41%。该测试在200万用户不知情的情况下运行了3个月。

行业影响与市场动态

这项技术重塑数字广告格局。谷歌2025年第一季度广告收入784亿美元,其中搜索广告523亿美元。Omnisight可通过投放匹配预认知意图的广告,使点击率提升25-35%。

| 年份 | 全球数字广告支出 | 谷歌份额 | 预计Omnisight收入提升 |
|---|---|---|---|
| 2024 | 6800亿美元 | 38.7% | — |
| 2025 | 7450亿美元 | 39.2% | +123亿美元(估计) |
| 2026 | 8100亿美元 | 40.1% | +287亿美元(估计) |

数据要点: 如果Omnisight实现预期一半的提振,谷歌到2026年可额外获得287亿美元广告收入,进一步巩固其垄断地位。Meta和亚马逊等竞争对手正竞相开发类似光标模型,但缺乏谷歌的浏览器级访问权限。

竞争态势残酷:小型广告平台无法达到这种粒度,被迫边缘化。

更多来自 Hacker News

无标题On May 12, 2025, GitHub experienced a significant outage that lasted over four hours, disrupting millions of developers FairyFuse终结GPU垄断:CPU推理速度飙升4倍,无需乘法运算FairyFuse是由多机构研究团队开发的新型推理框架,为在CPU硬件上执行大型语言模型(LLM)带来了根本性变革。其核心创新在于完全移除推理过程中的浮点乘法运算,转而采用仅需加法与符号检测的三元内核。这一突破通过权重三元量化(将权重压缩至Anthropic鼠标控制AI:从聊天机器人到自主数字代理的进化在一项重新定义人工智能边界的举措中,Anthropic发布了一款工具,允许其Claude AI模型直接操控计算机的鼠标光标。这绝非简单的功能更新,而是一次范式转移。该AI现在能够“看到”屏幕、解析图形用户界面(GUI),并执行点击、拖拽、滚查看来源专题页Hacker News 已收录 3318 篇文章

时间归档

May 20261349 篇已发布文章

延伸阅读

Google Gemma 4 混合架构突破 Transformer 极限,边缘 AI 迎来百万 Token 时代Google 推出 Gemma 4 系列开源大模型,其核心创新在于一种融合稀疏注意力与循环神经网络组件的混合架构,彻底打破了 Transformer 的二次复杂度瓶颈。这一设计不仅实现了百万 Token 的超长上下文窗口,更让模型能在智能手谢尔盖·布林的AI突击队:谷歌押注非对称战力,打响智能体战争面对Anthropic旗下Claude在深度推理领域的强势崛起,谷歌祭出终极杀招:联合创始人谢尔盖·布林亲自挂帅,组建精锐AI突击队。这支独立于DeepMind与谷歌研究院体系的特战小组,正以颠覆性架构向下一代AI智能体的核心能力发起总攻。Gemini Flash Live 重新定义实时AI:对话式思考的黎明谷歌正式推出 Gemini 3.1 Flash Live,这是一款专为实时音频交互打造的人工智能模型,延迟低于100毫秒。这项突破使模型能在用户尚未说完话时就开始生成回应,从根本上将人机对话的节奏从回合制转变为真正流畅的协作模式。谷歌Sashiko项目:AI智能体如何重塑Linux内核代码审查谷歌工程师团队近日推出开创性项目'Sashiko',通过智能体化AI自动化执行Linux内核代码审查这一复杂且高风险的工程任务。这标志着AI角色从编码助手向关键软件维护中具备自主推理能力的参与者进行战略转型,其目标直指现代计算基础设施的基石

常见问题

这篇关于“Google's AI Turns Your Mouse Into a Silent Surveillance Probe”的文章讲了什么?

AINews has uncovered that Google’s latest AI infrastructure is silently intercepting user cursor movements—hovering, highlighting, pausing—on any page where Google services or Chro…

从“Google cursor tracking opt out”看,这件事为什么值得关注?

The core of Project Omnisight is a client-side JavaScript engine called cursor-stream.js, injected into every page loaded in Chrome or any site using Google Analytics, AdSense, or Google Fonts. This script runs at the br…

如果想继续追踪“Project Omnisight Chrome privacy”,应该重点看什么?

可以继续查看本文整理的原文链接、相关文章和 AI 分析部分,快速了解事件背景、影响与后续进展。