技术深度解析
Gemini 3.5:迈向空间智能的多模态飞跃
Gemini 3.5 并非渐进式更新。其架构引入了一种统一 Transformer,配备新颖的“空间注意力”模块,可在单一潜在空间中同时处理 3D 体素数据、文本、图像和音频。这使得模型能够理解深度、遮挡和物体恒存性——这对 AR 应用至关重要。模型的上下文窗口已扩展至 400 万 token,使其能够一次性处理数小时的视频或整个建筑规模的 3D 扫描。
在工程层面,Google 部署了混合专家(MoE)架构,拥有 1.2 万亿参数,但每次推理仅激活 1800 亿参数。这是通过一种名为“自适应专家选择”的新型路由算法实现的,该算法根据输入复杂度动态分配计算资源。该模型在 MMLU 基准测试中达到 92.1%,在新引入的空间推理基准测试(SRB)中达到 89.4%。
| 基准测试 | Gemini 3.5 | GPT-4o | Claude 3.5 Opus |
|---|---|---|---|
| MMLU(0-shot) | 92.1% | 88.7% | 88.3% |
| 空间推理(SRB) | 89.4% | 不适用 | 不适用 |
| 实时视频理解(FPS) | 30 fps | 12 fps | 8 fps |
| 上下文窗口(token) | 4,000,000 | 128,000 | 200,000 |
| 每百万 token 成本(输入) | $2.50 | $5.00 | $3.00 |
数据要点: Gemini 3.5 在空间推理和实时视频方面占据主导地位——这两项指标直接支撑其 XR 眼镜的应用场景。相比 GPT-4o 的 30 倍上下文窗口优势不仅仅是规格参数;它使 Jinju 眼镜能够持久记忆用户一整天的活动,从而无需重新提示即可提供上下文感知的辅助。
Jinju XR 眼镜:让模型发挥价值的硬件
Jinju 眼镜重 38 克——比普通阅读眼镜还轻。它采用波导显示与 micro-LED 投影仪,可叠加 50 度视场角。关键创新在于设备端的“Gemini Nano 3”芯片,这是一款 3nm 定制 ASIC,本地运行 Gemini 3.5 的蒸馏版本(80 亿参数),用于处理手部追踪和物体识别等延迟敏感型任务。繁重计算则通过专用 5G 毫米波链路卸载至云端,实现低于 20 毫秒的往返延迟。
眼镜配备一颗 1200 万像素摄像头,采用神经形态传感器,仅捕捉视野中的变化,相比传统摄像头功耗降低 70%。电池续航标称为 18 小时活跃使用,无线充电盒可提供三次额外满充。
Nvidia Vera CPU:纯 GPU 时代的终结
Nvidia 的 Vera CPU 是一款基于 ARM 的 256 核处理器,集成 HBM4 内存和专用 AI 加速器,用于稀疏矩阵运算。与传统 CPU 不同,Vera 专为同时处理推理的“预填充”(提示处理)和“解码”(token 生成)阶段而设计,而 GPU 在这两个阶段效率低下。在内部基准测试中,单个 Vera CPU 搭配一块 B200 GPU,在 Llama 3 70B 推理任务上的吞吐量是双 GPU H100 配置的 2.3 倍。
| 配置 | 吞吐量(token/秒) | 功耗(瓦) | 每百万 token 成本 |
|---|---|---|---|
| 2x H100 GPU | 1,200 | 1,400 | $0.85 |
| 1x Vera CPU + 1x B200 GPU | 2,760 | 1,100 | $0.42 |
| 1x Vera CPU(仅推理) | 890 | 350 | $0.18 |
数据要点: Vera 的效率提升极为显著——成本减半的同时吞吐量翻倍。这使 Nvidia 能够销售整台服务器机架,而不仅仅是 GPU,从而在 AI 基础设施价值链中占据更大份额。
关键参与者与案例研究
Google:平台级豪赌
Google 的战略清晰明确:掌控 AI 模型、操作系统(Android XR,一个专为空间计算打造的 Android 分支)以及硬件。Jinju 眼镜是首款设备,但该平台设计为可授权给第三方制造商——类似于 Pixel/Android 模式。开源发布的“Spatial SDK”(GitHub 仓库:google/spatial-sdk,48 小时内获得 14,000 颗星)允许开发者构建可在 Jinju 及未来设备上运行的 AR 应用。
Nvidia:从 GPU 供应商到 AI 工厂建造者
Nvidia 向 OpenAI、Anthropic、DeepMind 和 Mistral 交付 Vera CPU 是一次精心策划的举措。通过提供 CPU + GPU + 网络(NVLink 6)+ 软件栈(CUDA 13),Nvidia 成为 AI 基础设施的单一来源。这威胁到依赖第三方 CPU 的 AMD MI400 系列和 Intel Gaudi 3。Vera CPU 同时处理训练和推理的能力意味着数据中心可以动态分配计算资源,减少闲置时间。
SandboxAQ 与 Anthropic:物理学与语言相遇
SandboxAQ 的“AQ-Phys”模型现已集成到 Claude 中,采用混合架构:一个用于分子动力学的图神经网络,结合一个用于自然语言推理的大型语言模型。这使得研究人员可以向 Claude 提出诸如“设计一个与蛋白质 X 结合亲和力 <1nM 且可在 3 步内合成的分子”之类的问题,并得到有效的分子结构。