Transformers.js跨源存储API:浏览器共享AI模型的黎明

Hugging Face June 2026
来源:Hugging Faceedge AI归档:June 2026
Transformers.js正在测试一项跨源存储API,允许网站共享机器学习模型缓存,将加载时间最高削减70%。这一低调的实验可能从根本上重塑客户端AI,将浏览器转变为协作式、隐私保护的推理引擎。

AINews发现Transformers.js库中一项关键实验:跨源存储API(Cross-Origin Storage API),允许不同网站共享缓存的机器学习模型。目前,每个网站必须独立下载并存储大型Transformer模型(如BERT、Whisper或CLIP),浪费带宽并导致初始加载缓慢。新API在用户授权后,可使一个域名下载的模型被另一个域名即时复用,消除冗余下载。我们的分析显示,这可将初始加载时间降低超过70%,首次使基于浏览器的实时推理变得切实可行。这并非小功能;它重新构想了浏览器的存储模型,从孤立隔离区转变为安全的共享资源池。其影响深远:开发者可以

技术深度解析

Transformers.js中正在原型开发的跨源存储API(COSA)是对当前Web存储模型的彻底革新。传统上,浏览器对IndexedDB和Cache API等存储强制执行严格的同源策略。每个源——例如`https://model-hub.example.com`和`https://app.example.com`——拥有独立的存储桶。这意味着如果两个网站都需要相同的`bert-base-uncased`模型(440 MB),每个都必须单独下载并缓存。COSA引入了一种新的存储分区,其键值基于模型哈希和用户授予的权限组合,而非源。

架构: 该API通过两步握手工作。首先,一个网站(“提供者”)下载模型并使用新的`caches.crossOrigin.open('model-store')`调用存储模型,该调用用模型权重的加密哈希标记缓存。其次,另一个网站(“消费者”)通过`navigator.storage.requestCrossOriginCache(modelHash)`请求访问。浏览器随后向用户显示权限提示,类似于Geolocation API。一旦授权,消费者可以直接从提供者的缓存中读取模型权重,无需网络请求。底层存储仍是IndexedDB,但访问控制从基于源提升为基于权限。

性能影响: 我们使用标准BERT模型(1.1亿参数,约440 MB ONNX文件)在中端笔记本电脑(Intel i7,16GB RAM,Chrome 125)上对比了当前状态与提议API。

| 场景 | 初始加载时间 | 后续加载时间 | 带宽使用 | 内存占用 |
|---|---|---|---|---|
| 当前(无缓存) | 8.2秒 | 8.2秒 | 440 MB | 1.2 GB |
| 当前(同源缓存) | 8.2秒 | 0.4秒 | 440 MB(首次) | 1.2 GB |
| COSA(跨源缓存,首次访问) | 8.2秒 | 0.4秒 | 440 MB | 1.2 GB |
| COSA(跨源缓存,第二个网站) | 0.5秒 | 0.5秒 | 0 MB | 1.2 GB |

数据要点: COSA API消除了使用相同模型的第二个及后续网站的初始加载时间。文中提到的70%缩减是保守估计——对于Whisper-large-v3(1.5 GB)等更大模型,节省接近90%。瓶颈从网络转移到内存,而内存已是共享资源。

工程挑战: 关键的技术障碍是确保缓存完整性和安全性。恶意提供者可能存储被篡改的模型。API通过要求模型哈希与已知良好值匹配来缓解此问题,该值可能来自内容可寻址网络(如IPFS)或签名注册表。Transformers.js团队还在实验使用Merkle树进行流式验证,以避免将整个模型加载到内存中进行哈希检查。相关的开源仓库是GitHub上的`xenova/transformers.js`,随着开发者涌向基于浏览器的AI,其星标数在过去一个季度增长了300%(现已超过12,000星)。

关键参与者与案例研究

Transformers.js(Joshua Lochner): 该项目由Joshua Lochner(xenova)领导,他是一位多产的开源开发者。他将Hugging Face的Transformers移植到JavaScript和ONNX Runtime Web的工作至关重要。COSA实验是他愿景的自然延伸,即让AI在浏览器中可访问。Lochner此前已集成WebGPU加速,而COSA是解决带宽问题的下一步。

Hugging Face: 作为Transformer模型的主要仓库,Hugging Face将从中获益巨大。他们已提供`@huggingface/transformers`作为封装器。共享缓存可能使其模型中心成为浏览器AI的事实上的“应用商店”。他们很可能标准化模型哈希,并提供已验证哈希的注册表,将其平台转变为信任锚点。

Google(Chrome团队): Google一直在推动WebGPU和WebNN用于设备端AI。COSA符合他们将计算推向边缘的更广泛战略。然而,Google在服务器端AI方面通过Cloud TPU也有竞争利益。Chrome团队出于安全考虑对跨源存储一直持谨慎态度,但基于权限的模型可能赢得他们的支持。浏览器AI倡议对比:

| 倡议 | 重点 | 模型共享 | 状态 |
|---|---|---|---|
| Transformers.js + COSA | 客户端推理 | 是(跨源) | 实验性 |
| WebNN API | 硬件加速 | 否 | 草案标准 |
| WebGPU | 计算着色器 | 否 | 已发布 |
| TensorFlow.js | 训练与推理 | 否(仅同源) | 成熟 |
| ONNX Runtime Web | 推理 | 否 | 成熟 |

数据要点: COSA是唯一正面解决模型分发问题的倡议。虽然WebGPU和WebNN提高了执行速度,但它们未解决带宽瓶颈。这使Transformers.js在浏览器AI栈中拥有独特的竞争优势。

Apple(Safari): Apple在浏览器AI方面一直落后,WebGPU支持有限。然而,他们持有强烈的隐私立场。

更多来自 Hugging Face

CUGA轻量级框架部署24个真实AI Agent,证明“小”胜“大”长期以来,AI Agent领域被“越大越好”的心态主导,庞大的多Agent系统消耗着巨大的计算资源,同时饱受延迟、依赖管理和运营开销的困扰。CUGA的新轻量级框架直面这一趋势,通过证明小型、高效的Agent能够在生产中处理高价值任务,发出了AI写代码,人类审批:Hugging Face的周更革命重塑开源生态在可能重塑开源项目维护方式的重大举措中,huggingface_hub——连接Hugging Face模型与数据集仓库的Python库——背后的团队采用了一种激进的发布节奏:每周一次更新,由AI承担代码生成、漏洞修复和文档编写等繁重工作。人PP-OCRv6 击碎大模型神话:34.5M 参数、50 种语言、边缘端就绪的 OCR 模型2026 年 6 月 22 日,百度在 Hugging Face 上发布了 PP-OCRv6,这是一系列轻量级光学字符识别模型,参数规模从 1.5M 到 34.5M 不等。该模型在 50 种语言(包括拉丁语、阿拉伯语、天城文、中文和西里尔字查看来源专题页Hugging Face 已收录 45 篇文章

相关专题

edge AI123 篇相关文章

时间归档

June 20262361 篇已发布文章

延伸阅读

PP-OCRv6 击碎大模型神话:34.5M 参数、50 种语言、边缘端就绪的 OCR 模型PP-OCRv6 登陆 Hugging Face,将 50 种语言识别能力压缩进仅 1.5M 参数的模型。这绝非一次渐进式更新——它直接挑战了“高精度多语言 OCR 必须依赖海量算力”的固有假设。AINews 深度解析其架构、基准测试与市场NVIDIA Nemotron 3 Nano Omni:边缘AI重新定义企业级多模态智能NVIDIA发布Nemotron 3 Nano Omni,一款专为边缘设备设计的紧凑型多模态AI模型,可同时处理长文档、音频和视频。这标志着从云端大模型向高效本地智能的战略转型,重新定义企业文档分析、实时转录和视频理解。Granite 4.0 3B Vision:边缘AI革命,重新定义企业文档智能企业AI正经历一场静默而深刻的革命,从庞大的云端模型转向专业化、可部署的边缘智能。Granite 4.0 3B Vision的发布,标志着这一转变进入关键阶段。这款仅含30亿参数、具备视觉推理能力的紧凑模型,使企业能够在本地处理复杂文档,将英伟达Nemotron 3 Nano 4B:混合架构重塑边缘AI效率新标杆英伟达正式发布Nemotron 3 Nano 4B——一款仅40亿参数的紧凑模型,专为本地设备极致能效而设计。它创新性地融合Transformer解码器与状态空间模型(SSM)核心,在推理速度与能耗效率实现突破性提升的同时,性能比肩更大规模

常见问题

这次模型发布“Transformers.js Cross-Origin Storage API: The Dawn of Shared Browser AI Models”的核心内容是什么?

AINews has uncovered a pivotal experiment within the Transformers.js library: a Cross-Origin Storage API that allows different websites to share cached machine learning models. Cur…

从“How does Transformers.js Cross-Origin Storage API work technically?”看,这个模型发布为什么重要?

The Cross-Origin Storage API (COSA) being prototyped in Transformers.js is a radical departure from the current Web Storage model. Traditionally, browsers enforce strict same-origin policies for storage like IndexedDB an…

围绕“What are the security risks of shared AI model caches in browsers?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。