技术深度解析
Tide本质上是一种推理阶段的自适应计算技术。标准的Transformer架构通过一系列相同的层(每层包含多头注意力和前馈网络)处理输入序列。每个令牌都会经过所有层,产生固定且高昂的计算成本。
Tide通过在中途关键层(例如,在一个24层模型中的第6、12、18层之后)引入退出门或路由网络来修改这一流程。每个门是一个小型神经网络——通常只是一个线性层加一个softmax函数——它接收令牌在该层的隐藏状态,并预测两件事:1) 当前表示是否足以进行最终预测的置信度分数;2) 下一个令牌在词汇表上的概率分布。
推理过程因此变成一个顺序决策循环:
1. 令牌通过第N层处理。
2. 将该令牌的隐藏状态传递给第N层的退出门。
3. 退出门计算置信度指标(例如,预测分布的熵,或经过校准的阈值)。
4. 如果置信度超过预设阈值,该令牌“退出”。退出门的词汇表分布将作为该令牌位置的最终输出,不再为其计算后续层。
5. 如果置信度低,令牌则继续进入第N+1层。
关键在于,这一决策是针对每个令牌、每个序列实时进行的。“阈值”是一个关键的超参数,用于权衡速度与质量。更高的阈值会迫使更多令牌通过更深层,从而保持质量但减少节省。
训练机制同样重要。简单地将随机分类器附加到中间层并单独训练,会导致协调性差。有效的Tide实现采用多目标训练或知识蒸馏。在微调期间,所有退出分类器和最终层同时接受训练,使用一个组合损失函数,该函数鼓励简单令牌提前退出,同时惩罚导致任务性能下降的过早退出。模型由此学习到对“难度”的内部表征。
一个展示这些原理的关键开源仓库是`FastBERT`(及其在LLM上的后续概念),它普及了BERT模型中的自适应推理思想。最近,GitHub上像`LLM-Adapters`这样的项目已开始为更大模型集成早期退出模块,作为社区的试验场。微软的`DeepSpeed`库也包含了相关功能,如推理时的“随机层剪枝”,尽管不是Tide那种学习型、动态的路由方式。
来自开创性论文的性能数据揭示了切实的收益:
| 模型与方法 | 基准延迟 (ms/令牌) | Tide优化后延迟 (ms/令牌) | FLOPs减少 | 质量保持率 (MMLU) |
|---|---|---|---|---|
| LLaMA-2 7B (标准) | 42 | N/A | 0% | 100% (基线) |
| LLaMA-2 7B (静态跳过12/24层) | 22 | 22 | ~48% | 91.2% |
| LLaMA-2 7B (使用Tide) | 42 | 28 | ~33% | 98.1% |
| LLaMA-2 13B (标准) | 78 | N/A | 0% | 100% (基线) |
| LLaMA-2 13B (使用Tide) | 78 | 45 | ~42% | 97.5% |
*数据启示*:与静态压缩相比,Tide提供了更优的效率-质量权衡。静态跳层虽然更快,但会导致质量显著下降。Tide在保持模型几乎全部能力的同时,恢复了大部分的速度提升,这使其在输出质量至关重要的生产环境中成为一种更实用的解决方案。
关键参与者与案例研究
动态早期退出策略的发展是学术界和工业界协作的成果。加州大学伯克利分校(特别是BAIR实验室)的研究人员在序列模型的自适应计算时间方面发表了基础性工作。微软研究院也深入参与其中,其团队探索的‘DeepSpeed’和‘FastFormers’将早期退出概念整合到更广泛的效率工具包中。谷歌研究院在条件计算和专家混合模型方面有并行工作,其哲学目标同样是不为每个输入使用整个网络。
虽然Tide作为一个有品牌的技术可能源于特定研究,但商业实现的竞赛正在升温。Anthropic 以其对Claude推理效率的极度关注而闻名,其工程博客暗示了复杂的、非均匀的计算策略。他们很可能正在研究或已经在使用令牌级别的自适应方法。OpenAI 对其推理优化策略仍然讳莫如深,但考虑到GPT-4和GPT-4o API调用的惊人规模,采用类似Tide的技术将每个令牌的成本削减几分之一美分,都将带来巨大的财务节省。他们对“推测解码”(使用小模型起草令牌,再由大模型验证)的研究是效率家族中的“表亲”,针对的是问题的不同环节。
初创公司们也在积极行动。