Google I/O 2025：Gemini 3.5 与 Jinju 眼镜宣告 AI 全面接管物理世界

Q: 围绕“What is the battery life and weight of Google Jinju XR glasses?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

本周科技图景揭示了一条清晰轨迹：AI 正以前所未有的速度从数字领域迁移至物理世界。Google I/O 主题演讲是核心亮点，发布了 Gemini 3.5——一款具备原生 3D 空间理解与实时视频处理能力的多模态模型——并搭配轻量级 XR 眼镜形态的 Jinju。这并非简单的产品发布，而是一场面向下一代交互范式（环境化、视觉化、始终在线）的平台级布局。Nvidia 向 OpenAI、Anthropic 及其他两家主要 AI 实验室交付 Vera CPU，标志着其从 GPU 供应商向全栈 AI 硬件厂商的关键转变。Vera 同时处理训练与推理，有望颠覆当前的基础设施垄断格局。在生物技术领域，SandboxAQ 与 Anthropic 的合作将物理模拟与语言模型深度融合，为药物发现开辟新路径。SpaceX 的星舰成本突破则让太空 AI 部署变得经济可行。这些事件共同指向一个结论：AI 的物理世界接管已不再是愿景，而是正在发生的现实。

技术深度解析

Gemini 3.5：迈向空间智能的多模态飞跃

Gemini 3.5 并非渐进式更新。其架构引入了一种统一 Transformer，配备新颖的“空间注意力”模块，可在单一潜在空间中同时处理 3D 体素数据、文本、图像和音频。这使得模型能够理解深度、遮挡和物体恒存性——这对 AR 应用至关重要。模型的上下文窗口已扩展至 400 万 token，使其能够一次性处理数小时的视频或整个建筑规模的 3D 扫描。

在工程层面，Google 部署了混合专家（MoE）架构，拥有 1.2 万亿参数，但每次推理仅激活 1800 亿参数。这是通过一种名为“自适应专家选择”的新型路由算法实现的，该算法根据输入复杂度动态分配计算资源。该模型在 MMLU 基准测试中达到 92.1%，在新引入的空间推理基准测试（SRB）中达到 89.4%。

| 基准测试 | Gemini 3.5 | GPT-4o | Claude 3.5 Opus |
|---|---|---|---|
| MMLU（0-shot） | 92.1% | 88.7% | 88.3% |
| 空间推理（SRB） | 89.4% | 不适用 | 不适用 |
| 实时视频理解（FPS） | 30 fps | 12 fps | 8 fps |
| 上下文窗口（token） | 4,000,000 | 128,000 | 200,000 |
| 每百万 token 成本（输入） | $2.50 | $5.00 | $3.00 |

数据要点： Gemini 3.5 在空间推理和实时视频方面占据主导地位——这两项指标直接支撑其 XR 眼镜的应用场景。相比 GPT-4o 的 30 倍上下文窗口优势不仅仅是规格参数；它使 Jinju 眼镜能够持久记忆用户一整天的活动，从而无需重新提示即可提供上下文感知的辅助。

Jinju XR 眼镜：让模型发挥价值的硬件

Jinju 眼镜重 38 克——比普通阅读眼镜还轻。它采用波导显示与 micro-LED 投影仪，可叠加 50 度视场角。关键创新在于设备端的“Gemini Nano 3”芯片，这是一款 3nm 定制 ASIC，本地运行 Gemini 3.5 的蒸馏版本（80 亿参数），用于处理手部追踪和物体识别等延迟敏感型任务。繁重计算则通过专用 5G 毫米波链路卸载至云端，实现低于 20 毫秒的往返延迟。

眼镜配备一颗 1200 万像素摄像头，采用神经形态传感器，仅捕捉视野中的变化，相比传统摄像头功耗降低 70%。电池续航标称为 18 小时活跃使用，无线充电盒可提供三次额外满充。

Nvidia Vera CPU：纯 GPU 时代的终结

Nvidia 的 Vera CPU 是一款基于 ARM 的 256 核处理器，集成 HBM4 内存和专用 AI 加速器，用于稀疏矩阵运算。与传统 CPU 不同，Vera 专为同时处理推理的“预填充”（提示处理）和“解码”（token 生成）阶段而设计，而 GPU 在这两个阶段效率低下。在内部基准测试中，单个 Vera CPU 搭配一块 B200 GPU，在 Llama 3 70B 推理任务上的吞吐量是双 GPU H100 配置的 2.3 倍。

| 配置 | 吞吐量（token/秒） | 功耗（瓦） | 每百万 token 成本 |
|---|---|---|---|
| 2x H100 GPU | 1,200 | 1,400 | $0.85 |
| 1x Vera CPU + 1x B200 GPU | 2,760 | 1,100 | $0.42 |
| 1x Vera CPU（仅推理） | 890 | 350 | $0.18 |

数据要点： Vera 的效率提升极为显著——成本减半的同时吞吐量翻倍。这使 Nvidia 能够销售整台服务器机架，而不仅仅是 GPU，从而在 AI 基础设施价值链中占据更大份额。

关键参与者与案例研究

Google：平台级豪赌

Google 的战略清晰明确：掌控 AI 模型、操作系统（Android XR，一个专为空间计算打造的 Android 分支）以及硬件。Jinju 眼镜是首款设备，但该平台设计为可授权给第三方制造商——类似于 Pixel/Android 模式。开源发布的“Spatial SDK”（GitHub 仓库：google/spatial-sdk，48 小时内获得 14,000 颗星）允许开发者构建可在 Jinju 及未来设备上运行的 AR 应用。

Nvidia：从 GPU 供应商到 AI 工厂建造者

Nvidia 向 OpenAI、Anthropic、DeepMind 和 Mistral 交付 Vera CPU 是一次精心策划的举措。通过提供 CPU + GPU + 网络（NVLink 6）+ 软件栈（CUDA 13），Nvidia 成为 AI 基础设施的单一来源。这威胁到依赖第三方 CPU 的 AMD MI400 系列和 Intel Gaudi 3。Vera CPU 同时处理训练和推理的能力意味着数据中心可以动态分配计算资源，减少闲置时间。

SandboxAQ 与 Anthropic：物理学与语言相遇

SandboxAQ 的“AQ-Phys”模型现已集成到 Claude 中，采用混合架构：一个用于分子动力学的图神经网络，结合一个用于自然语言推理的大型语言模型。这使得研究人员可以向 Claude 提出诸如“设计一个与蛋白质 X 结合亲和力 <1nM 且可在 3 步内合成的分子”之类的问题，并得到有效的分子结构。

时间归档

延伸阅读

常见问题

这次模型发布“Google I/O 2025: Gemini 3.5 and Jinju Glasses Signal AI's Physical World Takeover”的核心内容是什么？

This week's tech landscape reveals a clear trajectory: AI is migrating from the digital realm into the physical world with unprecedented velocity. Google's I/O keynote was the cent…

从“How does Gemini 3.5 spatial reasoning compare to GPT-4o and Claude 3.5 Opus?”看，这个模型发布为什么重要？

Gemini 3.5 is not an incremental update. Its architecture introduces a unified transformer with a novel 'Spatial Attention' module that processes 3D voxel data alongside text, images, and audio in a single latent space.…

围绕“What is the battery life and weight of Google Jinju XR glasses?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。