Adola 削减 LLM 输入 Token 70%：效率革命正式启幕

Q: 围绕“how does Adola salience gate work”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。

2026年5月10日 02:17 AINews Hacker News May 2026

Adola 推出了一项创新技术，可将大语言模型输入 Token 压缩高达 70%，在不牺牲输出质量的前提下大幅降低计算与 API 成本。这一突破直击企业级 LLM 部署的核心经济瓶颈，为 AI 基础设施效率树立了新标杆。

Adola，一家低调的 AI 基础设施初创公司，公开展示了一套 Token 压缩系统，能够智能识别并移除 LLM 提示中的冗余信息。该方法利用注意力机制分析，精准定位模型理解真正关键的 Token，然后安全地剪除其余部分。在真实世界测试中，Adola 在 MMLU 和 HellaSwag 等常见基准上实现了 70% 的压缩率，输出质量下降不到 2%。对于每月在 API 调用上花费数百万美元的企业而言，这相当于潜在成本降低超过 66%，同时带来显著的延迟改善。这项技术并非简单的数据压缩，而是对模型处理信息方式的深度重新思考。Adola 的方法表明，AI 创新的前沿正在从模型规模竞赛转向效率优化，而 Token 压缩正是这场变革的先锋。

技术深度解析

Adola 的 Token 压缩技术基于一个既优雅又技术要求极高的原理：它并非传统意义上的压缩（如 gzip），而是在输入序列到达模型的注意力层之前，直接移除整个 Token。核心创新在于一个轻量级的预处理 Transformer，它对输入提示执行快速、近似的注意力扫描。这个扫描器，Adola 称之为 Salience Gate，根据每个 Token 对所有层最终注意力分布的贡献，为其分配一个相关性分数。

架构概览

Salience Gate 是一个完整 Transformer 的蒸馏版本，仅包含 2 层和 4 个注意力头，专门训练用于预测较大模型（例如 Llama 3 70B、GPT-4）最可能关注哪些 Token。它不是一个需要单独加载的独立模型，而是一个在 CPU 或轻量级 GPU 上运行的小型神经网络，仅增加几毫秒的预处理延迟。该门控输出一个二进制掩码：低于动态阈值的 Token 被丢弃，剩余的 Token 被拼接成一个更短的序列。

算法细节

Adola 使用了一种最初为视觉 Transformer 开发的 Token Merging (ToMe) 算法的变体，并针对文本进行了适配。然而，它不是合并 Token，而是完全丢弃它们。关键创新在于一种上下文感知的阈值机制，该机制根据注意力图的熵来调整压缩比率。高熵提示（例如模糊的问题）保留更多 Token；低熵提示（例如重复的指令）则被激进压缩。这防止了在边缘情况下出现灾难性的信息丢失。

基准性能

Adola 在包括 Llama 3 8B 和 Mistral 7B 在内的多个开源模型上测试了其压缩技术，使用了标准基准。下表总结了结果：

| 模型 | 压缩率 | MMLU（原始） | MMLU（压缩后） | 下降幅度 | 延迟降低 |
|---|---|---|---|---|---|
| Llama 3 8B | 70% | 68.4 | 67.1 | -1.9% | 62% |
| Mistral 7B | 70% | 64.2 | 63.0 | -1.9% | 58% |
| GPT-4 (API) | 65% | 86.4 | 85.2 | -1.4% | 55% (估计) |

数据要点： 压缩引入了极小的精度下降（低于 2%），同时实现了 55-62% 的延迟降低。对于聊天机器人或代码补全等实时应用，这种延迟改善具有变革性。

开源连接

Adola 尚未发布 Salience Gate 模型，但他们在 GitHub 上开源了一个名为 `token-prune` 的相关仓库（目前获得 1200 星）。该仓库包含其阈值算法的参考实现以及来自 Llama 3 的注意力图数据集。开发者可以使用它来试验自己的压缩策略，不过核心的 Salience Gate 权重仍为专有。

关键参与者与案例研究

Adola 并非 Token 优化领域的唯一参与者，但他们的方法独树一帜。以下是竞争解决方案的比较：

| 公司/项目 | 方法 | 压缩率 | 质量影响 | 延迟开销 |
|---|---|---|---|---|
| Adola | 基于注意力的剪枝 | 70% | <2% 下降 | +5ms 预处理 |
| SparseGPT | 权重稀疏化 | 50%（模型大小） | <3% 下降 | 无（训练后） |
| LLMLingua | 通过小型 LM 进行提示压缩 | 60% | <5% 下降 | +20ms 预处理 |
| Microsoft 的 LongRoPE | 用于长上下文的 RoPE 缩放 | 不适用（上下文扩展） | 极小 | 无 |

数据要点： Adola 实现了最高的压缩率，同时质量影响最低，延迟开销具有竞争力。SparseGPT 减少的是模型大小而非输入 Token，因此是互补的。LLMLingua 是直接竞争对手，但质量下降更严重且预处理速度更慢。

案例研究：电商聊天机器人

一家大型电商平台 ShopAI（真实公司的化名）在其客服聊天机器人上测试了 Adola 的压缩技术，该机器人每月处理超过 1000 万条提示。每条提示平均包含 1200 个 Token，包括产品描述、用户历史和系统指令。应用 Adola 的压缩后，平均提示大小降至 360 个 Token。结果是：API 成本从每月 12 万美元降至 4 万美元，响应延迟从 4.2 秒降至 1.8 秒。客户满意度评分保持不变（4.6/5.0）。

行业影响与市场动态

Adola 的技术出现在一个关键的转折点。据行业估计，LLM 市场预计将从 2024 年的 400 亿美元增长到 2028 年的 2000 亿美元。然而，推理成本仍然是广泛采用的主要障碍，尤其是对于中小企业而言。Adola 直接解决了这个问题。

成本降低场景

| 用例 | 每月 API 调用次数 | 每次调用平均 Token 数 | 当前成本 (GPT-4) | 使用 Adola 后的成本 | 节省 |
|---|---|---|---|---|---|
| 客服聊天机器人 | 1

常见问题

这次公司发布“Adola Cuts LLM Input Tokens by 70%: The Efficiency Revolution Begins”主要讲了什么？

Adola, a stealthy AI infrastructure startup, has publicly demonstrated a token compression system that intelligently identifies and removes redundant information from LLM prompts.…

从“Adola token compression vs LLMLingua”看，这家公司的这次发布为什么值得关注？

Adola's token compression technology operates on a principle that is both elegant and technically demanding: it does not compress tokens in the traditional sense (like gzip), but rather removes entire tokens from the inp…

围绕“how does Adola salience gate work”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。

Adola 削减 LLM 输入 Token 70%：效率革命正式启幕

技术深度解析

架构概览

算法细节

基准性能

开源连接

关键参与者与案例研究

案例研究：电商聊天机器人

行业影响与市场动态

成本降低场景

更多来自 Hacker News

时间归档

延伸阅读

常见问题