技术深度解析
WebGPU代表了对其前身WebGL的根本性升级。WebGL主要为图形设计,而WebGPU则通过`GPUComputePipeline`为通用GPU计算(GPGPU)提供了一个现代的、低层次的硬件抽象。这使得开发者能够使用WGSL(WebGPU着色语言)编写着色器,执行基于Transformer的LLM核心所需的大规模并行矩阵乘法。
实现基于浏览器的大模型推理的关键技术创新,是面向客户端执行的模型量化和优化。模型通常从16位或32位浮点精度缩减至4位整数(例如通过GPTQ或AWQ方法),且精度损失极小。这些量化后的模型随后被编译成WebGPU兼容的格式。MLCommons组织的开源项目`web-llm`就是一个开创性范例。它提供了一个运行时,能自动将Llama-3-8B-Instruct和Mistral-7B等模型编译成WebGPU内核,并处理内存管理和执行调度。另一个关键仓库是Hugging Face的`transformers.js`,它正在扩展对WebGPU后端的支持,使得熟悉的PyTorch模型能够在浏览器中运行。
新发布的基准测试聚焦于几个核心指标:每秒生成令牌数(TPS)、首令牌延迟(首次输出的时间),以及在不同硬件(集成GPU vs. 独立GPU)和浏览器上的内存使用情况。早期数据揭示了一个由硬件能力和模型优化定义的性能格局。
| 模型(量化后) | 浏览器 / GPU | 令牌/秒 | 首令牌延迟 |
|---|---|---|---|
| Llama-3-8B (INT4) | Chrome / NVIDIA RTX 4070 | ~45 TPS | ~850 ms |
| Phi-3-mini (INT4) | Edge / Apple M3 | ~60 TPS | ~220 ms |
| Gemma-2B (INT4) | Firefox / Intel Arc A770 | ~85 TPS | ~180 ms |
| Mistral-7B (INT4) | Chrome / AMD RX 7800 XT | ~38 TPS | ~920 ms |
数据洞察: 基准测试揭示了一个清晰的层次结构。像Phi-3-mini和Gemma-2B这样更小、高度优化的模型,在消费级硬件上实现了令人印象深刻、近乎交互式的速度,而参数量更大的7B-8B模型虽然可用但速度较慢。对于较大模型,首令牌延迟仍然是一个重大障碍,凸显了持续优化初始计算图设置的必要性。Apple Silicon表现出特别强劲的性能,表明其平台层面的深度优化。
关键参与者与案例研究
推动浏览器原生AI发展的,是由浏览器厂商、硬件制造商和AI研究实验室组成的联盟,各方都有其独特的战略动机。
谷歌是最积极的参与者,将Chrome对WebGPU的实现与其更广泛的Android和Pixel设备AI集成战略对齐。该公司的Gemma系列开源模型明确为边缘部署设计,其权重以适用于`web-llm`等框架的即用格式发布。谷歌的案例研究是其实验性的“NotebookLM”智能体,它可能演变成一个完全在客户端运行的研究助手。微软则利用其对Edge浏览器和Windows平台的双重控制。其由微软研究院开发的Phi系列小语言模型,是“每参数性能”的典范,并通过在Edge中本地运行的演示进行展示。将WebGPU加速的AI副驾驶直接集成到浏览器侧边栏,是合乎逻辑的下一步。
苹果采取了一种独特的以硬件为中心的方法。通过将Safari的WebGPU实现与其M系列芯片上的Metal图形API和神经引擎紧密耦合,苹果实现了卓越的性能。苹果的研究人员已发表了关于设备高效Transformer推理的论文,其对大型云端AI服务的沉默,凸显了其对设备端处理在隐私和性能方面优势的信念。
Meta作为模型提供商扮演着关键角色。通过以宽松许可证开源Llama系列,它为这个边缘计算引擎提供了燃料。Meta的战略似乎是培育生态系统:Llama越容易获取和部署,其架构和分词器作为标准就越根深蒂固。
| 公司 | 主要角色 | 关键资产/项目 | 战略目标 |
|---|---|---|---|
| 谷歌 | 浏览器厂商 & 模型制造商 | Chrome、Gemma模型、对`web-llm`的贡献 | 推动网络AI使用,增强Chrome实用性,销售相关云服务。 |
| 微软 | 浏览器 & 操作系统厂商、模型制造商 | Edge、Windows、Phi模型 | 将AI集成到Windows生态系统中,减少基础任务对OpenAI云API的依赖。 |
| 苹果 | 硬件 & 浏览器厂商 | Safari、Metal API、M系列神经引擎 | 通过隐私和软硬件集成实现差异化,销售高端设备。 |
| Meta | 模型提供商 | Llama系列(3.1, 3.2) | 将其模型架构确立为设备端AI的行业标准。 |
数据洞察: 基准测试揭示了一个清晰的层次结构。像Phi-3-mini和Gemma-2B这样更小、高度优化的模型,在消费级硬件上实现了令人印象深刻、近乎交互式的速度,而参数量更大的7B-8B模型虽然可用但速度较慢。对于较大模型,首令牌延迟仍然是一个重大障碍,凸显了持续优化初始计算图设置的必要性。Apple Silicon表现出特别强劲的性能,表明其平台层面的深度优化。