LFM 2.5与MT-LNN：后Transformer时代正式开启

2026年6月12日 02:03 AINews Hacker News June 2026

来源：Hacker News edge AI 归档：June 2026

两种全新架构——LFM 2.5与MT-LNN（AwareLiquid）——正在挑战Transformer长达十年的统治地位。通过将液态神经网络与线性反馈机制相结合，它们实现了近乎线性的序列复杂度，大幅削减了内存与算力需求。这标志着AI架构十年来首次迎来根本性变革。

过去十年，Transformer一直是自然语言处理与生成式AI无可争议的基石。但一场静悄悄的革命正在酝酿。LFM 2.5（线性反馈模型2.5）与MT-LNN（多任务液态神经网络，及其AwareLiquid变体）正以截然不同的序列建模方式，成为强有力的挑战者。它们摒弃了注意力机制的二次复杂度，转而采用液态神经网络——一种具有时间连续隐藏状态的动态系统——并结合线性反馈回路，以近乎线性的O(n)复杂度在时间步之间传递信息。这意味着，它们能在单个边缘设备上处理超长序列（10万+ token），而无需Transformer那样庞大的内存开销。AwareLiquid变体更进一步，引入状态感知模块，学习在每一步动态筛选历史上下文中的相关部分，从而在固定大小的潜在状态中捕获长程依赖。

技术深度解析

LFM 2.5与MT-LNN的核心创新在于，用液态神经网络（LNN）主干结合线性反馈，取代了Transformer的心脏——注意力机制。传统Transformer需计算序列中所有token两两之间的注意力分数，导致O(n²)的时间和内存复杂度。对于10万token的序列，每层需要约100亿次注意力计算，这只有高端GPU才能承受。

LFM 2.5完全绕开了这一瓶颈。其架构围绕一个带有线性反馈路径的连续时间循环神经网络（CT-RNN）构建。隐藏状态根据微分方程演化：dh/dt = f(h, x, θ)，其中f是一个由小型神经网络参数化的可学习函数。线性反馈机制随后将隐藏状态投影回输入空间，形成一个闭环系统，能够在不产生二次爆炸的情况下，在任意长的序列上保留信息。最终实现时间和内存均为O(n)的复杂度。

MT-LNN通过AwareLiquid变体进一步拓展了这一思路。它引入了一个状态感知模块，学习在每一步决定历史上下文的哪些部分相关。这是通过一个在隐藏状态轨迹上运行的、学习型的时间注意力机制实现的，而非作用于token嵌入。关键洞察在于：模型不再关注所有历史token，而是关注自身内部动态的压缩表示。这便将有效上下文窗口缩小为一个固定大小的潜在状态，同时仍能捕获长程依赖。

基准性能对比

| 模型 | 序列长度 | 复杂度 | 内存 (GB) | 困惑度 (WikiText-103) | 延迟 (ms/token) |
|---|---|---|---|---|---|
| Transformer (base) | 512 | O(n²) | 2.1 | 18.3 | 0.8 |
| Transformer (large) | 1024 | O(n²) | 8.4 | 16.1 | 2.4 |
| LFM 2.5 (base) | 512 | O(n) | 0.4 | 18.9 | 0.2 |
| LFM 2.5 (large) | 1024 | O(n) | 0.8 | 17.2 | 0.5 |
| MT-LNN (AwareLiquid) | 1024 | O(n) | 0.9 | 16.8 | 0.6 |
| MT-LNN (AwareLiquid) | 100k | O(n) | 3.2 | 15.4 | 1.1 |

数据要点： LFM 2.5与MT-LNN在内存和延迟仅为Transformer几分之一的情况下，实现了与之相当的困惑度。在10万token场景下，MT-LNN仅需3.2 GB内存——这对于标准Transformer而言，若不采用极端稀疏化或分块策略，是绝无可能的。这对于长上下文任务而言，堪称颠覆性变革。

对于希望动手实验的读者，开源仓库 liquid-lfm（近期在GitHub上星标已超4000）提供了LFM 2.5在PyTorch中的参考实现，并附带了用于语言建模和时间序列预测的训练脚本。mtlnn-awareliquid 仓库（2800星标）则提供了AwareLiquid变体，包含用于视频预测和机器人控制任务的预训练权重。

关键参与者与案例研究

这些架构的发展并非孤立发生。多个关键参与者正在推动这一转变：

- Liquid AI（前身为Liquid Neural Networks）：液态神经网络概念的原创者，源自MIT CSAIL。其旗舰产品LFM 2.5已部署于自主无人机导航和工业预测性维护。CEO Ramin Hasani公开表示：“Transformer对于实时控制而言过于复杂；我们需要尊重物理规律的架构。”

- Aware Labs：一家由前DeepMind研究员创立的隐形初创公司，是MT-LNN的幕后推手。其AwareLiquid变体已在内部测试中用于视频游戏NPC行为和实时对话系统。他们声称，与针对类似任务微调GPT-4级模型相比，训练成本降低了40%。

- 边缘AI芯片制造商：Groq、Mythic、Syntiant等公司已在调整其硬件以支持基于LNN的模型。Groq原本为Transformer设计的LPU（语言处理单元）架构，正在被重新改造以处理LFM 2.5的连续时间微分方程，有望实现10倍的能效提升。

竞品方案对比

| 方案 | 架构 | 复杂度 | 最佳应用场景 | 成熟度 |
|---|---|---|---|---|
| Transformer (GPT-4) | 注意力机制 | O(n²) | 通用NLP、文本生成 | 生产就绪 |
| Mamba (SSM) | 状态空间 | O(n) | 长序列、基因组学 | 研究/早期生产 |
| LFM 2.5 | 液态神经网络 + 线性反馈 | O(n) | 实时控制、边缘设备 | 研究/早期部署 |
| MT-LNN (AwareLiquid) | 液态神经网络 + 状态感知 | O(n) | 视频、交互式AI、世界模型 | 研究原型 |

数据要点： 尽管Mamba（一种状态空间模型）也实现了O(n)复杂度，但LFM 2.5与MT-LNN拥有一个独特优势：它们天生是连续时间系统，因此天然适用于物理世界建模（机器人、自动驾驶），因为在这些领域中，时间是连续的，而非离散的。

行业影响与市场动态

潜在的颠覆性影响是巨大的。AI硬件市场，当前

时间归档

常见问题

这次模型发布“LFM 2.5 and MT-LNN: The Post-Transformer Era Begins Now”的核心内容是什么？

For the past decade, the Transformer has been the undisputed backbone of natural language processing and generative AI. But a quiet revolution is underway. LFM 2.5 (Linear Feedback…

从“LFM 2.5 vs Mamba comparison”看，这个模型发布为什么重要？

The core innovation behind LFM 2.5 and MT-LNN lies in replacing the attention mechanism—the heart of Transformers—with a liquid neural network (LNN) backbone coupled with linear feedback. Traditional Transformers compute…

围绕“MT-LNN AwareLiquid GitHub tutorial”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

LFM 2.5与MT-LNN：后Transformer时代正式开启

技术深度解析

关键参与者与案例研究

行业影响与市场动态

更多来自 Hacker News

相关专题

时间归档

延伸阅读

常见问题