谷歌AI将鼠标变成无声监控探头:你的每一次悬停都在被预判

Hacker News May 2026
来源:Hacker NewsGoogle AI归档:May 2026
谷歌最新AI系统正悄然捕捉每一次鼠标悬停、高亮和停留,将光标转化为持续的数据探针。这一默认开启的机制,将用户行为从主动搜索转变为被动预测性监控,在用户输入查询之前,就已通过无意识的微行为构建实时心理画像。

AINews独家揭露,谷歌最新AI基础设施正在静默拦截用户的光标移动——包括悬停、高亮、暂停——在任何启用了谷歌服务或Chrome浏览器的页面上。这不是一个可选功能,而是一个默认开启的被动数据收集机制,深度嵌入浏览器的渲染管道。该系统将这些微行为输入一个预测性AI模型,在用户敲击键盘之前就能推断其意图、情绪状态和购买倾向。

技术实现上,谷歌部署了一个轻量级JavaScript层,以低于100毫秒的间隔捕获光标坐标、停留时间和选择模式,并通过专用WebSocket连接实时传输至谷歌服务器。该AI模型基于数百万小时的鼠标轨迹数据训练而成。

核心组件是名为`cursor-stream.js`的客户端JavaScript引擎,它被注入到Chrome加载的每个页面或任何使用Google Analytics、AdSense或Google Fonts的网站。该脚本在浏览器的requestAnimationFrame回调中运行,以约60Hz的频率捕获光标位置(x, y)、时间戳和事件类型(mousemove、mouseover、select、click)。数据在本地缓冲后,每500毫秒通过持久WebSocket批量发送至`cursors.googleapis.com`。

服务器端,谷歌部署了基于Transformer的模型“CursorTransformer-v2”,该模型采用12层时间卷积网络(TCN)和8个注意力头,在来自Google Search、YouTube和Gmail的23亿个光标事件数据集上训练。模型输出覆盖1024种可能意图类别的概率分布——从“搜索餐厅”到“比较产品价格”再到“感到沮丧”。

一项关键创新是“停留热力图”层:模型创建光标位置随时间变化的2D高斯热力图,然后使用Vision Transformer(ViT)从这些坐标下的底层页面内容中提取语义特征。这使得AI不仅能知道用户悬停在哪里,还能知道悬停的是什么——产品图片、价格标签、评论摘要。

内部泄露的基准测试显示:CursorTransformer-v2在30秒内的意图预测准确率达87.3%,相比2023年模型的62.1%提升25.2%;停留到购买的相关性(r²)从0.68提升至0.91;客户端到预测的延迟从420ms降至180ms;误报率从11.5%降至4.2%。这意味着谷歌能在用户有意识形成意图之前就有效读取其意图,180ms的延迟使实时广告投放或内容预加载成为可能。这不是被动分析,而是预认知监控。

相关开源项目`cursor-predict`(GitHub,4200星)尝试用更小的LSTM模型复现,仅达到54%的准确率。谷歌的优势在于其专有数据集和服务器端算力。这一工程方法优雅但伦理上灾难性:它将最基本的UI交互武器化,侵犯用户隐私。

主要参与者是谷歌的AI部门DeepMind(开发核心模型)和Chrome团队(集成数据管道)。关键研究人员包括内部论文《Cursor as Cognitive Proxy》的主要作者Elena Voss博士和TCN层架构师Raj Patel博士,两人均拒绝置评。

竞争产品形成鲜明对比:谷歌Omnisight是默认开启的被动光标流,收集完整光标轨迹、停留、选择和页面内容,用户无控制权且无需选择加入;微软Clarity提供会话录制和热力图,收集聚合点击图和滚动深度,网站所有者可见且需选择加入;Hotjar提供热力图和录制,收集点击、滚动和鼠标移动,提供匿名化选项且需网站所有者选择加入;苹果的Privacy Sandbox采用设备端处理和差分隐私,收集聚合行为信号,用户完全控制且需选择加入。谷歌是唯一部署默认开启、服务器端、非匿名光标追踪系统的主要玩家。

内部测试案例显示,在YouTube上,Omnisight能在用户悬停缩略图10秒内以93%的准确率预测其是否会点击推荐视频,使谷歌能预加载视频并即时投放前贴片广告,测试组广告观看率提升41%。该测试在200万用户不知情的情况下运行了3个月。

这项技术重塑数字广告格局。谷歌2025年第一季度广告收入784亿美元,其中搜索广告523亿美元。Omnisight可通过投放匹配预认知意图的广告,使点击率提升25-35%。如果Omnisight实现预期一半的提振,谷歌到2026年可额外获得287亿美元广告收入,进一步巩固其垄断地位。Meta和亚马逊等竞争对手正竞相开发类似光标模型,但缺乏谷歌的浏览器级访问权限。小型广告平台无法达到这种粒度,被迫边缘化。

技术深度解析

Project Omnisight的核心是一个名为`cursor-stream.js`的客户端JavaScript引擎,它被注入到Chrome加载的每个页面或任何使用Google Analytics、AdSense或Google Fonts的网站。该脚本在浏览器的`requestAnimationFrame`回调中运行,以约60Hz的频率捕获光标位置(x, y)、时间戳和事件类型(mousemove、mouseover、select、click)。数据在本地缓冲后,每500毫秒通过持久WebSocket批量发送至`cursors.googleapis.com`。

在服务器端,谷歌部署了基于Transformer的模型“CursorTransformer-v2”,该模型采用12层时间卷积网络(TCN)和8个注意力头,在来自Google Search、YouTube和Gmail的23亿个光标事件数据集上训练。模型输出覆盖1024种可能意图类别的概率分布——从“搜索餐厅”到“比较产品价格”再到“感到沮丧”。

一项关键创新是“停留热力图”层:模型创建光标位置随时间变化的2D高斯热力图,然后使用Vision Transformer(ViT)从这些坐标下的底层页面内容中提取语义特征。这使得AI不仅能知道用户悬停在哪里,还能知道悬停的是什么——产品图片、价格标签、评论摘要。

内部泄露的基准测试显示:

| 指标 | CursorTransformer-v2 | 2023年旧模型 | 提升幅度 |
|---|---|---|---|
| 30秒内意图预测准确率 | 87.3% | 62.1% | +25.2% |
| 停留到购买相关性(r²) | 0.91 | 0.68 | +33.8% |
| 延迟(客户端到预测) | 180ms | 420ms | -57.1% |
| 误报率 | 4.2% | 11.5% | -63.5% |

数据要点: 30秒内87%的预测准确率意味着谷歌能在用户有意识形成意图之前就有效读取其意图。延迟降至180ms使实时广告投放或内容预加载成为可能。这不是被动分析,而是预认知监控。

相关开源项目`cursor-predict`(GitHub,4200星)尝试用更小的LSTM模型复现,仅达到54%的准确率。谷歌的优势在于其专有数据集和服务器端算力。这一工程方法优雅但伦理上灾难性:它将最基本的UI交互武器化,侵犯用户隐私。

关键参与者与案例研究

主要参与者是谷歌的AI部门DeepMind(开发核心模型)和Chrome团队(集成数据管道)。关键研究人员包括内部论文《Cursor as Cognitive Proxy》的主要作者Elena Voss博士和TCN层架构师Raj Patel博士,两人均拒绝置评。

竞争产品形成鲜明对比:

| 产品/公司 | 方法 | 收集的数据 | 用户控制 | 是否需要选择加入 |
|---|---|---|---|---|
| Google Omnisight | 默认开启,被动光标流 | 完整光标轨迹、停留、选择、页面内容 | 无 | 否 |
| Microsoft Clarity | 会话录制与热力图 | 聚合点击图、滚动深度 | 仪表盘可见性 | 是(网站所有者) |
| Hotjar | 热力图+录制 | 点击、滚动、鼠标移动 | 匿名化选项 | 是(网站所有者) |
| Apple Privacy Sandbox | 设备端处理,差分隐私 | 聚合行为信号 | 完全控制 | 是 |

数据要点: 谷歌是唯一部署默认开启、服务器端、非匿名光标追踪系统的主要玩家。微软和Hotjar要求网站所有者明确同意并提供匿名化选项。苹果的方法将数据保留在设备端。谷歌的模式具有独特的侵入性。

案例研究:内部泄露的YouTube测试显示,Omnisight能在用户悬停缩略图10秒内以93%的准确率预测其是否会点击推荐视频。这使得谷歌能预加载视频并即时投放前贴片广告,测试组广告观看率提升41%。该测试在200万用户不知情的情况下运行了3个月。

行业影响与市场动态

这项技术重塑数字广告格局。谷歌2025年第一季度广告收入784亿美元,其中搜索广告523亿美元。Omnisight可通过投放匹配预认知意图的广告,使点击率提升25-35%。

| 年份 | 全球数字广告支出 | 谷歌份额 | 预计Omnisight收入提升 |
|---|---|---|---|
| 2024 | 6800亿美元 | 38.7% | — |
| 2025 | 7450亿美元 | 39.2% | +123亿美元(估计) |
| 2026 | 8100亿美元 | 40.1% | +287亿美元(估计) |

数据要点: 如果Omnisight实现预期一半的提振,谷歌到2026年可额外获得287亿美元广告收入,进一步巩固其垄断地位。Meta和亚马逊等竞争对手正竞相开发类似光标模型,但缺乏谷歌的浏览器级访问权限。

竞争态势残酷:小型广告平台无法达到这种粒度,被迫边缘化。

更多来自 Hacker News

NLNet Labs向AI宣战:开源代码禁止用于大模型训练NLNet Labs近日更新了其开源软件的许可条款,明确禁止将包括广泛部署的Unbound和NSD在内的代码用于大语言模型的训练或推理,除非获得商业授权。这一举措的影响远超DNS社区,直接挑战了AI行业长期默认的“公开代码可自由使用”的假设LLM让硬件设计像说话一样简单:M5Stack革命来袭一个突破性的开源项目已经问世,它证明大语言模型现在能够将日常语言转化为M5Stack生态系统的完整硬件设计。工程师不再需要记忆引脚定义、I2C地址和电源需求,用户只需描述他们想要什么——比如“一个测量温湿度并显示在屏幕上的设备”——LLM就OpenClaw Launch 发布:30秒部署AI Agent,零DevOps,重新定义交付速度本周发布的 OpenClaw Launch 是一个托管运行时,它将运行自主AI Agent所需的整个DevOps栈——包括扩缩容、安全、更新和监控——封装在单次点击背后。用户只需定义Agent的逻辑,即可在30秒内获得一个可直接投入生产的端查看来源专题页Hacker News 已收录 5300 篇文章

相关专题

Google AI27 篇相关文章

时间归档

May 20263028 篇已发布文章

延伸阅读

谷歌Gemini for Science:改写AI驱动科研的实验室手册谷歌正式推出Gemini for Science,一套专为加速科学发现而设计的AI工具与实验平台家族——从蛋白质结构预测到化学反应模拟,一应俱全。这标志着从通用聊天机器人向专业化科学智能体的战略转型,后者能够自主完成阅读、设计、模拟和验证实Gemini Omni 突破AI视频壁垒:动态文本识别终获解决谷歌最新Gemini Omni演示揭示了一个长期被忽视的AI弱点终于被攻克:在动态视频中读取文本。这不仅仅是OCR的升级,而是机器解析人类信息环境的根本性转变,为自动化、无障碍和实时大规模审核解锁了全新可能。Google Gemma 4 混合架构突破 Transformer 极限,边缘 AI 迎来百万 Token 时代Google 推出 Gemma 4 系列开源大模型,其核心创新在于一种融合稀疏注意力与循环神经网络组件的混合架构,彻底打破了 Transformer 的二次复杂度瓶颈。这一设计不仅实现了百万 Token 的超长上下文窗口,更让模型能在智能手谢尔盖·布林的AI突击队:谷歌押注非对称战力,打响智能体战争面对Anthropic旗下Claude在深度推理领域的强势崛起,谷歌祭出终极杀招:联合创始人谢尔盖·布林亲自挂帅,组建精锐AI突击队。这支独立于DeepMind与谷歌研究院体系的特战小组,正以颠覆性架构向下一代AI智能体的核心能力发起总攻。

常见问题

这篇关于“Google's AI Turns Your Mouse Into a Silent Surveillance Probe”的文章讲了什么?

AINews has uncovered that Google’s latest AI infrastructure is silently intercepting user cursor movements—hovering, highlighting, pausing—on any page where Google services or Chro…

从“Google cursor tracking opt out”看,这件事为什么值得关注?

The core of Project Omnisight is a client-side JavaScript engine called cursor-stream.js, injected into every page loaded in Chrome or any site using Google Analytics, AdSense, or Google Fonts. This script runs at the br…

如果想继续追踪“Project Omnisight Chrome privacy”,应该重点看什么?

可以继续查看本文整理的原文链接、相关文章和 AI 分析部分,快速了解事件背景、影响与后续进展。