Adola 削减 LLM 输入 Token 70%:效率革命正式启幕

Hacker News May 2026
来源:Hacker News归档:May 2026
Adola 推出了一项创新技术,可将大语言模型输入 Token 压缩高达 70%,在不牺牲输出质量的前提下大幅降低计算与 API 成本。这一突破直击企业级 LLM 部署的核心经济瓶颈,为 AI 基础设施效率树立了新标杆。

Adola,一家低调的 AI 基础设施初创公司,公开展示了一套 Token 压缩系统,能够智能识别并移除 LLM 提示中的冗余信息。该方法利用注意力机制分析,精准定位模型理解真正关键的 Token,然后安全地剪除其余部分。在真实世界测试中,Adola 在 MMLU 和 HellaSwag 等常见基准上实现了 70% 的压缩率,输出质量下降不到 2%。对于每月在 API 调用上花费数百万美元的企业而言,这相当于潜在成本降低超过 66%,同时带来显著的延迟改善。这项技术并非简单的数据压缩,而是对模型处理信息方式的深度重新思考。Adola 的方法表明,AI 创新的前沿正在从模型规模竞赛转向效率优化,而 Token 压缩正是这场变革的先锋。

技术深度解析

Adola 的 Token 压缩技术基于一个既优雅又技术要求极高的原理:它并非传统意义上的压缩(如 gzip),而是在输入序列到达模型的注意力层之前,直接移除整个 Token。核心创新在于一个轻量级的预处理 Transformer,它对输入提示执行快速、近似的注意力扫描。这个扫描器,Adola 称之为 Salience Gate,根据每个 Token 对所有层最终注意力分布的贡献,为其分配一个相关性分数。

架构概览

Salience Gate 是一个完整 Transformer 的蒸馏版本,仅包含 2 层和 4 个注意力头,专门训练用于预测较大模型(例如 Llama 3 70B、GPT-4)最可能关注哪些 Token。它不是一个需要单独加载的独立模型,而是一个在 CPU 或轻量级 GPU 上运行的小型神经网络,仅增加几毫秒的预处理延迟。该门控输出一个二进制掩码:低于动态阈值的 Token 被丢弃,剩余的 Token 被拼接成一个更短的序列。

算法细节

Adola 使用了一种最初为视觉 Transformer 开发的 Token Merging (ToMe) 算法的变体,并针对文本进行了适配。然而,它不是合并 Token,而是完全丢弃它们。关键创新在于一种上下文感知的阈值机制,该机制根据注意力图的熵来调整压缩比率。高熵提示(例如模糊的问题)保留更多 Token;低熵提示(例如重复的指令)则被激进压缩。这防止了在边缘情况下出现灾难性的信息丢失。

基准性能

Adola 在包括 Llama 3 8B 和 Mistral 7B 在内的多个开源模型上测试了其压缩技术,使用了标准基准。下表总结了结果:

| 模型 | 压缩率 | MMLU(原始) | MMLU(压缩后) | 下降幅度 | 延迟降低 |
|---|---|---|---|---|---|
| Llama 3 8B | 70% | 68.4 | 67.1 | -1.9% | 62% |
| Mistral 7B | 70% | 64.2 | 63.0 | -1.9% | 58% |
| GPT-4 (API) | 65% | 86.4 | 85.2 | -1.4% | 55% (估计) |

数据要点: 压缩引入了极小的精度下降(低于 2%),同时实现了 55-62% 的延迟降低。对于聊天机器人或代码补全等实时应用,这种延迟改善具有变革性。

开源连接

Adola 尚未发布 Salience Gate 模型,但他们在 GitHub 上开源了一个名为 `token-prune` 的相关仓库(目前获得 1200 星)。该仓库包含其阈值算法的参考实现以及来自 Llama 3 的注意力图数据集。开发者可以使用它来试验自己的压缩策略,不过核心的 Salience Gate 权重仍为专有。

关键参与者与案例研究

Adola 并非 Token 优化领域的唯一参与者,但他们的方法独树一帜。以下是竞争解决方案的比较:

| 公司/项目 | 方法 | 压缩率 | 质量影响 | 延迟开销 |
|---|---|---|---|---|
| Adola | 基于注意力的剪枝 | 70% | <2% 下降 | +5ms 预处理 |
| SparseGPT | 权重稀疏化 | 50%(模型大小) | <3% 下降 | 无(训练后) |
| LLMLingua | 通过小型 LM 进行提示压缩 | 60% | <5% 下降 | +20ms 预处理 |
| Microsoft 的 LongRoPE | 用于长上下文的 RoPE 缩放 | 不适用(上下文扩展) | 极小 | 无 |

数据要点: Adola 实现了最高的压缩率,同时质量影响最低,延迟开销具有竞争力。SparseGPT 减少的是模型大小而非输入 Token,因此是互补的。LLMLingua 是直接竞争对手,但质量下降更严重且预处理速度更慢。

案例研究:电商聊天机器人

一家大型电商平台 ShopAI(真实公司的化名)在其客服聊天机器人上测试了 Adola 的压缩技术,该机器人每月处理超过 1000 万条提示。每条提示平均包含 1200 个 Token,包括产品描述、用户历史和系统指令。应用 Adola 的压缩后,平均提示大小降至 360 个 Token。结果是:API 成本从每月 12 万美元降至 4 万美元,响应延迟从 4.2 秒降至 1.8 秒。客户满意度评分保持不变(4.6/5.0)。

行业影响与市场动态

Adola 的技术出现在一个关键的转折点。据行业估计,LLM 市场预计将从 2024 年的 400 亿美元增长到 2028 年的 2000 亿美元。然而,推理成本仍然是广泛采用的主要障碍,尤其是对于中小企业而言。Adola 直接解决了这个问题。

成本降低场景

| 用例 | 每月 API 调用次数 | 每次调用平均 Token 数 | 当前成本 (GPT-4) | 使用 Adola 后的成本 | 节省 |
|---|---|---|---|---|---|
| 客服聊天机器人 | 1

更多来自 Hacker News

SQLite:AI智能体最被低估的“记忆宫殿”多年来,AI智能体开发者一直面临一个根本性矛盾:如何在不牺牲速度或膨胀基础设施成本的前提下,赋予智能体持久、可靠的长时记忆。AINews发现,答案出乎意料地朴素:SQLite——这个早在2000年首次发布的嵌入式数据库引擎。与依赖云端的向量Pi-treebase:像改写代码一样重写AI对话——LLM界的Git RebaseAINews独家发现Pi-treebase,一个通过引入Git启发的rebase机制来彻底重塑大语言模型交互方式的开源项目。与传统聊天界面中每次交互都被锁定在线性、不可逆序列中不同,Pi-treebase将每一轮对话视为树结构中的一个节点。Prave的智能体技能层:AI开发一直缺失的操作系统AI智能体生态系统已遭遇结构性瓶颈。每位开发者都在从零构建孤立的工具和提示链,导致智能体无法互操作、技能不可复用、维护成为噩梦。Prave作为智能体基础设施领域的新入局者,正试图通过引入所谓的“操作系统层”来解决这一问题。 Prave的核查看来源专题页Hacker News 已收录 3278 篇文章

时间归档

May 20261288 篇已发布文章

延伸阅读

Haskell函数式编程将AI智能体Token成本削减60%一种基于Haskell函数式编程范式的新方法,在复杂多智能体场景中,将AI智能体的Token使用量压缩40%-60%。通过将状态转换编码为纯函数并利用惰性求值,该方法在不损失语义的前提下大幅削减冗余上下文,同时为智能体行为解锁了形式化验证能Claude Token Spy:开源扩展揭开AI隐藏成本的黑箱一款全新的开源浏览器扩展通过拦截fetch()调用,实时曝光Claude.ai的隐藏token消耗。对于重度用户而言,这层透明化将模糊的AI成本转化为可衡量的资源,重塑了提示词优化与订阅价值评估的方式。ANP Protocol: AI Agents Ditch LLMs for Binary Bargaining at Machine SpeedA new open-source binary protocol, ANP, is enabling AI agents to negotiate prices using compact binary data instead of e静默的效率革命:重塑AI经济学AI产业正经历一场静默革命:推理成本正以超越摩尔定律的速度骤降。这场效率浪潮正将竞争焦点从规模转向优化,为自主智能体解锁全新的经济模型。

常见问题

这次公司发布“Adola Cuts LLM Input Tokens by 70%: The Efficiency Revolution Begins”主要讲了什么?

Adola, a stealthy AI infrastructure startup, has publicly demonstrated a token compression system that intelligently identifies and removes redundant information from LLM prompts.…

从“Adola token compression vs LLMLingua”看,这家公司的这次发布为什么值得关注?

Adola's token compression technology operates on a principle that is both elegant and technically demanding: it does not compress tokens in the traditional sense (like gzip), but rather removes entire tokens from the inp…

围绕“how does Adola salience gate work”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。