Tide的令牌感知深度执行:AI模型如何学会“偷懒”并实现高效推理

Hacker News April 2026
来源:Hacker NewsAI efficiency归档:April 2026
一项名为Tide(令牌感知深度执行)的范式转换技术正在重塑大语言模型的思考方式。它允许模型针对简单令牌动态跳过深层计算,从而显著降低计算成本和延迟。这标志着AI发展正从蛮力扩展转向智能、令牌感知的高效时代。

对更大、更强语言模型的狂热追求,已与推理经济学的严峻现实正面碰撞。部署千亿参数规模的模型,意味着难以承受的计算成本、能源消耗和延迟问题。虽然量化、剪枝和知识蒸馏等技术带来了渐进式改进,但它们往往需要对模型能力做出静态妥协,或需要大量重新训练。

Tide(令牌感知深度执行)则提供了一种根本性的新思路。其核心创新是在模型前向传播中嵌入动态的、令牌级别的决策机制。Tide不再让每个令牌遍历所有Transformer层,而是为模型配备了一个内部“裁判”——通常是一个附着在中间层的轻量级辅助分类器。这个“裁判”能实时评估每个令牌在当前层的表示是否已足够做出准确预测。对于简单的、可确定性高的令牌(如常见功能词或标点),模型允许其提前“退出”,无需经过后续更耗时的深层计算;而对于复杂、模糊或关键的令牌,则继续深入处理。

这种动态路由机制使模型能够根据输入内容的实际需求,智能分配计算资源。它本质上让模型学会了“偷懒”——在保证输出质量的前提下,避免对简单任务进行过度计算。这不仅大幅提升了推理速度,降低了能耗,更代表了一种从“一刀切”的静态架构向上下文感知、自适应计算范式的深刻转变。随着AI模型日益庞大和普及,此类技术对于实现可持续、可扩展且经济高效的AI部署至关重要,可能为下一代模型设计开辟全新道路。

技术深度解析

Tide本质上是一种推理阶段的自适应计算技术。标准的Transformer架构通过一系列相同的层(每层包含多头注意力和前馈网络)处理输入序列。每个令牌都会经过所有层,产生固定且高昂的计算成本。

Tide通过在中途关键层(例如,在一个24层模型中的第6、12、18层之后)引入退出门路由网络来修改这一流程。每个门是一个小型神经网络——通常只是一个线性层加一个softmax函数——它接收令牌在该层的隐藏状态,并预测两件事:1) 当前表示是否足以进行最终预测的置信度分数;2) 下一个令牌在词汇表上的概率分布

推理过程因此变成一个顺序决策循环:
1. 令牌通过第N层处理。
2. 将该令牌的隐藏状态传递给第N层的退出门。
3. 退出门计算置信度指标(例如,预测分布的熵,或经过校准的阈值)。
4. 如果置信度超过预设阈值,该令牌“退出”。退出门的词汇表分布将作为该令牌位置的最终输出,不再为其计算后续层。
5. 如果置信度低,令牌则继续进入第N+1层。

关键在于,这一决策是针对每个令牌、每个序列实时进行的。“阈值”是一个关键的超参数,用于权衡速度与质量。更高的阈值会迫使更多令牌通过更深层,从而保持质量但减少节省。

训练机制同样重要。简单地将随机分类器附加到中间层并单独训练,会导致协调性差。有效的Tide实现采用多目标训练知识蒸馏。在微调期间,所有退出分类器和最终层同时接受训练,使用一个组合损失函数,该函数鼓励简单令牌提前退出,同时惩罚导致任务性能下降的过早退出。模型由此学习到对“难度”的内部表征。

一个展示这些原理的关键开源仓库是`FastBERT`(及其在LLM上的后续概念),它普及了BERT模型中的自适应推理思想。最近,GitHub上像`LLM-Adapters`这样的项目已开始为更大模型集成早期退出模块,作为社区的试验场。微软的`DeepSpeed`库也包含了相关功能,如推理时的“随机层剪枝”,尽管不是Tide那种学习型、动态的路由方式。

来自开创性论文的性能数据揭示了切实的收益:

| 模型与方法 | 基准延迟 (ms/令牌) | Tide优化后延迟 (ms/令牌) | FLOPs减少 | 质量保持率 (MMLU) |
|---|---|---|---|---|
| LLaMA-2 7B (标准) | 42 | N/A | 0% | 100% (基线) |
| LLaMA-2 7B (静态跳过12/24层) | 22 | 22 | ~48% | 91.2% |
| LLaMA-2 7B (使用Tide) | 42 | 28 | ~33% | 98.1% |
| LLaMA-2 13B (标准) | 78 | N/A | 0% | 100% (基线) |
| LLaMA-2 13B (使用Tide) | 78 | 45 | ~42% | 97.5% |

*数据启示*:与静态压缩相比,Tide提供了更优的效率-质量权衡。静态跳层虽然更快,但会导致质量显著下降。Tide在保持模型几乎全部能力的同时,恢复了大部分的速度提升,这使其在输出质量至关重要的生产环境中成为一种更实用的解决方案。

关键参与者与案例研究

动态早期退出策略的发展是学术界和工业界协作的成果。加州大学伯克利分校(特别是BAIR实验室)的研究人员在序列模型的自适应计算时间方面发表了基础性工作。微软研究院也深入参与其中,其团队探索的‘DeepSpeed’和‘FastFormers’将早期退出概念整合到更广泛的效率工具包中。谷歌研究院在条件计算和专家混合模型方面有并行工作,其哲学目标同样是不为每个输入使用整个网络。

虽然Tide作为一个有品牌的技术可能源于特定研究,但商业实现的竞赛正在升温。Anthropic 以其对Claude推理效率的极度关注而闻名,其工程博客暗示了复杂的、非均匀的计算策略。他们很可能正在研究或已经在使用令牌级别的自适应方法。OpenAI 对其推理优化策略仍然讳莫如深,但考虑到GPT-4和GPT-4o API调用的惊人规模,采用类似Tide的技术将每个令牌的成本削减几分之一美分,都将带来巨大的财务节省。他们对“推测解码”(使用小模型起草令牌,再由大模型验证)的研究是效率家族中的“表亲”,针对的是问题的不同环节。

初创公司们也在积极行动。

更多来自 Hacker News

多智能体 AI 系统革命性重塑自动化漏洞发现格局网络安全格局正经历由多智能体大语言模型系统驱动的根本性变革。传统的漏洞扫描严重依赖静态签名和基于规则的引擎,往往产生高误报率,需要大量人工分类并延误修复工作,导致安全团队负担过重且响应滞后。新兴范式引入了协作式 AI 智能体,战略性地在扫描Webflow 祭出“代理优先”架构,无代码 Web 开发迎来范式革命Webflow 正在执行一次基础设施的根本性 pivot,其战略重心已从视觉设计工具转向成为新兴代理经济的首要编排层。这一转型重新定义了网站的本质:从静态的展示层转变为动态的、机器可读的接口,具备自主协商交易的能力。通过直接将语义元数据嵌入后 Web 时代:AI Agent 弃用 HTTPS 转向轻量级协议支撑人工智能的数字基础设施正在经历一场静默却深刻的转型,这场变革虽未大张旗鼓,却影响深远。随着自主 Agent 成为在线信息的主要消费者,专为人类视觉消费设计的现代 Web 遗留架构正日益显得过时,无法适应自动化流程的高吞吐要求。沉重的 J查看来源专题页Hacker News 已收录 4054 篇文章

相关专题

AI efficiency26 篇相关文章

时间归档

April 20263042 篇已发布文章

延伸阅读

编译器战争:重塑LLM推理经济学的隐形力量当AI行业痴迷于更大模型和更快GPU时,一场机器学习编译器的静默革命正以2-3倍的推理加速改写规则,且无需任何硬件升级。AINews深入探究内核融合、内存层次优化与自动张量布局变换如何重塑LLM部署的经济学。SSV稀疏验证:'偷懒'的LLM推理如何将成本降低3倍一篇新论文提出稀疏推测验证(SSV)技术,通过仅验证关键令牌,大幅降低大语言模型推理成本。该方法在不牺牲输出质量的前提下实现2-3倍加速,直击云端与边缘部署的核心成本痛点。Ada-MK:用有向无环图搜索取代静态内核,重塑大模型推理优化Ada-MK 将内核选择重新定义为有向无环图(DAG)搜索问题,彻底革新了大语言模型的推理优化。它不再依赖静态内核库,而是动态发现针对任何模型和硬件的最优执行路径,大幅降低延迟与内存占用。KV缓存革命:压缩技术如何重塑大模型推理的经济账一场悄然无声的革命正在大语言模型推理领域展开。通过压缩、共享和剪枝键值缓存——Transformer架构中臭名昭著的内存瓶颈——工程师们将部署成本削减了高达80%,同时让此前在经济上不可行的实时长上下文应用成为现实。

常见问题

这次模型发布“Tide's Token-Informed Depth Execution: How AI Models Are Learning to Be Lazy and Efficient”的核心内容是什么?

The relentless pursuit of larger, more capable language models has collided with the hard reality of inference economics. Deploying models with hundreds of billions of parameters a…

从“how does Tide LLM early exit work technically”看,这个模型发布为什么重要?

At its heart, Tide is an inference-time adaptive computation technique. The standard Transformer architecture processes an input sequence through a series of identical layers, each containing multi-head attention and fee…

围绕“Tide token informed depth execution vs speculative decoding”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。