Google I/O 2025:Gemini 3.5 与 Jinju 眼镜宣告 AI 全面接管物理世界

May 2026
归档:May 2026
Google I/O 2025 投下双料重磅炸弹:Gemini 3.5 模型与 Jinju XR 眼镜,标志着谷歌押注环境式、始终在线的 AI。与此同时,Nvidia 向顶级实验室交付 Vera CPU,SandboxAQ 将物理学融入 Claude,SpaceX 将星舰发射成本降至每公斤 115 美元。AI 不再只存在于云端——它已在你手中、你脸上,甚至轨道之上。

本周科技图景揭示了一条清晰轨迹:AI 正以前所未有的速度从数字领域迁移至物理世界。Google I/O 主题演讲是核心亮点,发布了 Gemini 3.5——一款具备原生 3D 空间理解与实时视频处理能力的多模态模型——并搭配轻量级 XR 眼镜形态的 Jinju。这并非简单的产品发布,而是一场面向下一代交互范式(环境化、视觉化、始终在线)的平台级布局。Nvidia 向 OpenAI、Anthropic 及其他两家主要 AI 实验室交付 Vera CPU,标志着其从 GPU 供应商向全栈 AI 硬件厂商的关键转变。Vera 同时处理训练与推理,有望颠覆当前的基础设施垄断格局。在生物技术领域,SandboxAQ 与 Anthropic 的合作将物理模拟与语言模型深度融合,为药物发现开辟新路径。SpaceX 的星舰成本突破则让太空 AI 部署变得经济可行。这些事件共同指向一个结论:AI 的物理世界接管已不再是愿景,而是正在发生的现实。

技术深度解析

Gemini 3.5:迈向空间智能的多模态飞跃

Gemini 3.5 并非渐进式更新。其架构引入了一种统一 Transformer,配备新颖的“空间注意力”模块,可在单一潜在空间中同时处理 3D 体素数据、文本、图像和音频。这使得模型能够理解深度、遮挡和物体恒存性——这对 AR 应用至关重要。模型的上下文窗口已扩展至 400 万 token,使其能够一次性处理数小时的视频或整个建筑规模的 3D 扫描。

在工程层面,Google 部署了混合专家(MoE)架构,拥有 1.2 万亿参数,但每次推理仅激活 1800 亿参数。这是通过一种名为“自适应专家选择”的新型路由算法实现的,该算法根据输入复杂度动态分配计算资源。该模型在 MMLU 基准测试中达到 92.1%,在新引入的空间推理基准测试(SRB)中达到 89.4%。

| 基准测试 | Gemini 3.5 | GPT-4o | Claude 3.5 Opus |
|---|---|---|---|
| MMLU(0-shot) | 92.1% | 88.7% | 88.3% |
| 空间推理(SRB) | 89.4% | 不适用 | 不适用 |
| 实时视频理解(FPS) | 30 fps | 12 fps | 8 fps |
| 上下文窗口(token) | 4,000,000 | 128,000 | 200,000 |
| 每百万 token 成本(输入) | $2.50 | $5.00 | $3.00 |

数据要点: Gemini 3.5 在空间推理和实时视频方面占据主导地位——这两项指标直接支撑其 XR 眼镜的应用场景。相比 GPT-4o 的 30 倍上下文窗口优势不仅仅是规格参数;它使 Jinju 眼镜能够持久记忆用户一整天的活动,从而无需重新提示即可提供上下文感知的辅助。

Jinju XR 眼镜:让模型发挥价值的硬件

Jinju 眼镜重 38 克——比普通阅读眼镜还轻。它采用波导显示与 micro-LED 投影仪,可叠加 50 度视场角。关键创新在于设备端的“Gemini Nano 3”芯片,这是一款 3nm 定制 ASIC,本地运行 Gemini 3.5 的蒸馏版本(80 亿参数),用于处理手部追踪和物体识别等延迟敏感型任务。繁重计算则通过专用 5G 毫米波链路卸载至云端,实现低于 20 毫秒的往返延迟。

眼镜配备一颗 1200 万像素摄像头,采用神经形态传感器,仅捕捉视野中的变化,相比传统摄像头功耗降低 70%。电池续航标称为 18 小时活跃使用,无线充电盒可提供三次额外满充。

Nvidia Vera CPU:纯 GPU 时代的终结

Nvidia 的 Vera CPU 是一款基于 ARM 的 256 核处理器,集成 HBM4 内存和专用 AI 加速器,用于稀疏矩阵运算。与传统 CPU 不同,Vera 专为同时处理推理的“预填充”(提示处理)和“解码”(token 生成)阶段而设计,而 GPU 在这两个阶段效率低下。在内部基准测试中,单个 Vera CPU 搭配一块 B200 GPU,在 Llama 3 70B 推理任务上的吞吐量是双 GPU H100 配置的 2.3 倍。

| 配置 | 吞吐量(token/秒) | 功耗(瓦) | 每百万 token 成本 |
|---|---|---|---|
| 2x H100 GPU | 1,200 | 1,400 | $0.85 |
| 1x Vera CPU + 1x B200 GPU | 2,760 | 1,100 | $0.42 |
| 1x Vera CPU(仅推理) | 890 | 350 | $0.18 |

数据要点: Vera 的效率提升极为显著——成本减半的同时吞吐量翻倍。这使 Nvidia 能够销售整台服务器机架,而不仅仅是 GPU,从而在 AI 基础设施价值链中占据更大份额。

关键参与者与案例研究

Google:平台级豪赌

Google 的战略清晰明确:掌控 AI 模型、操作系统(Android XR,一个专为空间计算打造的 Android 分支)以及硬件。Jinju 眼镜是首款设备,但该平台设计为可授权给第三方制造商——类似于 Pixel/Android 模式。开源发布的“Spatial SDK”(GitHub 仓库:google/spatial-sdk,48 小时内获得 14,000 颗星)允许开发者构建可在 Jinju 及未来设备上运行的 AR 应用。

Nvidia:从 GPU 供应商到 AI 工厂建造者

Nvidia 向 OpenAI、Anthropic、DeepMind 和 Mistral 交付 Vera CPU 是一次精心策划的举措。通过提供 CPU + GPU + 网络(NVLink 6)+ 软件栈(CUDA 13),Nvidia 成为 AI 基础设施的单一来源。这威胁到依赖第三方 CPU 的 AMD MI400 系列和 Intel Gaudi 3。Vera CPU 同时处理训练和推理的能力意味着数据中心可以动态分配计算资源,减少闲置时间。

SandboxAQ 与 Anthropic:物理学与语言相遇

SandboxAQ 的“AQ-Phys”模型现已集成到 Claude 中,采用混合架构:一个用于分子动力学的图神经网络,结合一个用于自然语言推理的大型语言模型。这使得研究人员可以向 Claude 提出诸如“设计一个与蛋白质 X 结合亲和力 <1nM 且可在 3 步内合成的分子”之类的问题,并得到有效的分子结构。

时间归档

May 20262541 篇已发布文章

延伸阅读

谷歌、阿里、Meta三箭齐发:AI从内到外重塑企业架构本周,谷歌、阿里巴巴与Meta同时打响三场战役,重新定义了AI军备竞赛的规则。这不再是关于更好的聊天机器人——而是围绕AI重构企业本身,涉及智能体模型、开源生态以及痛苦的组织手术。Alibaba Bets on Embodied AI With Shenzhen Robotics IPO BackingAlibaba's latest capital move signals a pivot from digital clouds to physical floors. A Shenzhen robotics firm is going 中国涌现“AI工厂”:驱动智能体规模化部署的工业新基建中国正形成一类超越原始算力与模型性能的新型工业AI基础设施。'AI工厂'作为标准化、编排与大规模生产智能体及工作流的运营平台,标志着人工智能迈向工业化部署的关键转折。AI重工业时代:资产剥离与生态重组如何驱动算力军备竞赛科技行业正经历一场决定性的战略重组,资本与人才以前所未有的速度涌向AI核心基础设施。本周一系列重大资产剥离与组织架构调整揭示了一个核心真相:AI霸权之争已进入'重工业'阶段,算力规模与资本密度成为终极入场壁垒。

常见问题

这次模型发布“Google I/O 2025: Gemini 3.5 and Jinju Glasses Signal AI's Physical World Takeover”的核心内容是什么?

This week's tech landscape reveals a clear trajectory: AI is migrating from the digital realm into the physical world with unprecedented velocity. Google's I/O keynote was the cent…

从“How does Gemini 3.5 spatial reasoning compare to GPT-4o and Claude 3.5 Opus?”看,这个模型发布为什么重要?

Gemini 3.5 is not an incremental update. Its architecture introduces a unified transformer with a novel 'Spatial Attention' module that processes 3D voxel data alongside text, images, and audio in a single latent space.…

围绕“What is the battery life and weight of Google Jinju XR glasses?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。