LFM 2.5与MT-LNN:后Transformer时代正式开启

Hacker News June 2026
来源:Hacker Newsedge AI归档:June 2026
两种全新架构——LFM 2.5与MT-LNN(AwareLiquid)——正在挑战Transformer长达十年的统治地位。通过将液态神经网络与线性反馈机制相结合,它们实现了近乎线性的序列复杂度,大幅削减了内存与算力需求。这标志着AI架构十年来首次迎来根本性变革。

过去十年,Transformer一直是自然语言处理与生成式AI无可争议的基石。但一场静悄悄的革命正在酝酿。LFM 2.5(线性反馈模型2.5)与MT-LNN(多任务液态神经网络,及其AwareLiquid变体)正以截然不同的序列建模方式,成为强有力的挑战者。它们摒弃了注意力机制的二次复杂度,转而采用液态神经网络——一种具有时间连续隐藏状态的动态系统——并结合线性反馈回路,以近乎线性的O(n)复杂度在时间步之间传递信息。这意味着,它们能在单个边缘设备上处理超长序列(10万+ token),而无需Transformer那样庞大的内存开销。AwareLiquid变体更进一步,引入状态感知模块,学习在每一步动态筛选历史上下文中的相关部分,从而在固定大小的潜在状态中捕获长程依赖。

技术深度解析

LFM 2.5与MT-LNN的核心创新在于,用液态神经网络(LNN)主干结合线性反馈,取代了Transformer的心脏——注意力机制。传统Transformer需计算序列中所有token两两之间的注意力分数,导致O(n²)的时间和内存复杂度。对于10万token的序列,每层需要约100亿次注意力计算,这只有高端GPU才能承受。

LFM 2.5完全绕开了这一瓶颈。其架构围绕一个带有线性反馈路径的连续时间循环神经网络(CT-RNN)构建。隐藏状态根据微分方程演化:dh/dt = f(h, x, θ),其中f是一个由小型神经网络参数化的可学习函数。线性反馈机制随后将隐藏状态投影回输入空间,形成一个闭环系统,能够在不产生二次爆炸的情况下,在任意长的序列上保留信息。最终实现时间和内存均为O(n)的复杂度。

MT-LNN通过AwareLiquid变体进一步拓展了这一思路。它引入了一个状态感知模块,学习在每一步决定历史上下文的哪些部分相关。这是通过一个在隐藏状态轨迹上运行的、学习型的时间注意力机制实现的,而非作用于token嵌入。关键洞察在于:模型不再关注所有历史token,而是关注自身内部动态的压缩表示。这便将有效上下文窗口缩小为一个固定大小的潜在状态,同时仍能捕获长程依赖。

基准性能对比

| 模型 | 序列长度 | 复杂度 | 内存 (GB) | 困惑度 (WikiText-103) | 延迟 (ms/token) |
|---|---|---|---|---|---|
| Transformer (base) | 512 | O(n²) | 2.1 | 18.3 | 0.8 |
| Transformer (large) | 1024 | O(n²) | 8.4 | 16.1 | 2.4 |
| LFM 2.5 (base) | 512 | O(n) | 0.4 | 18.9 | 0.2 |
| LFM 2.5 (large) | 1024 | O(n) | 0.8 | 17.2 | 0.5 |
| MT-LNN (AwareLiquid) | 1024 | O(n) | 0.9 | 16.8 | 0.6 |
| MT-LNN (AwareLiquid) | 100k | O(n) | 3.2 | 15.4 | 1.1 |

数据要点: LFM 2.5与MT-LNN在内存和延迟仅为Transformer几分之一的情况下,实现了与之相当的困惑度。在10万token场景下,MT-LNN仅需3.2 GB内存——这对于标准Transformer而言,若不采用极端稀疏化或分块策略,是绝无可能的。这对于长上下文任务而言,堪称颠覆性变革。

对于希望动手实验的读者,开源仓库 liquid-lfm(近期在GitHub上星标已超4000)提供了LFM 2.5在PyTorch中的参考实现,并附带了用于语言建模和时间序列预测的训练脚本。mtlnn-awareliquid 仓库(2800星标)则提供了AwareLiquid变体,包含用于视频预测和机器人控制任务的预训练权重。

关键参与者与案例研究

这些架构的发展并非孤立发生。多个关键参与者正在推动这一转变:

- Liquid AI(前身为Liquid Neural Networks):液态神经网络概念的原创者,源自MIT CSAIL。其旗舰产品LFM 2.5已部署于自主无人机导航和工业预测性维护。CEO Ramin Hasani公开表示:“Transformer对于实时控制而言过于复杂;我们需要尊重物理规律的架构。”

- Aware Labs:一家由前DeepMind研究员创立的隐形初创公司,是MT-LNN的幕后推手。其AwareLiquid变体已在内部测试中用于视频游戏NPC行为和实时对话系统。他们声称,与针对类似任务微调GPT-4级模型相比,训练成本降低了40%。

- 边缘AI芯片制造商:Groq、Mythic、Syntiant等公司已在调整其硬件以支持基于LNN的模型。Groq原本为Transformer设计的LPU(语言处理单元)架构,正在被重新改造以处理LFM 2.5的连续时间微分方程,有望实现10倍的能效提升。

竞品方案对比

| 方案 | 架构 | 复杂度 | 最佳应用场景 | 成熟度 |
|---|---|---|---|---|
| Transformer (GPT-4) | 注意力机制 | O(n²) | 通用NLP、文本生成 | 生产就绪 |
| Mamba (SSM) | 状态空间 | O(n) | 长序列、基因组学 | 研究/早期生产 |
| LFM 2.5 | 液态神经网络 + 线性反馈 | O(n) | 实时控制、边缘设备 | 研究/早期部署 |
| MT-LNN (AwareLiquid) | 液态神经网络 + 状态感知 | O(n) | 视频、交互式AI、世界模型 | 研究原型 |

数据要点: 尽管Mamba(一种状态空间模型)也实现了O(n)复杂度,但LFM 2.5与MT-LNN拥有一个独特优势:它们天生是连续时间系统,因此天然适用于物理世界建模(机器人、自动驾驶),因为在这些领域中,时间是连续的,而非离散的。

行业影响与市场动态

潜在的颠覆性影响是巨大的。AI硬件市场,当前

更多来自 Hacker News

中国封堵西方AI模型,硅谷却拥抱DeepSeek开源力量中华人民共和国已升级对西方AI模型的监管姿态,规定任何在其境内运营的外国大语言模型必须将所有用户数据存储于国内服务器,并通过国家管理的内容安全审查。此举实际上将OpenAI、Anthropic和谷歌等公司在中国市场的合规成本提升至近乎禁止的甲骨文千亿债务炸弹:AI热潮背后的财务悬崖甲骨文向AI基础设施的转型,堪称一场财务高空走钢丝。该公司激进举债——长期债务现已突破1000亿美元——用于采购数万块NVIDIA H100和H200 GPU,建设数据中心以与亚马逊云服务(AWS)、微软Azure和谷歌云竞争。这一策略最初SentinelMCP:守护AI代理工具调用的开源防火墙AI代理的爆发式增长,离不开其与外部工具的深度融合,而模型上下文协议(MCP)正迅速成为连接这些工具的标准化桥梁。然而,当业界将大量精力聚焦于模型本身的安全性——如对齐、越狱攻击和提示注入时,代理与工具之间的通信通道却始终是一片无人设防的巨查看来源专题页Hacker News 已收录 4606 篇文章

相关专题

edge AI112 篇相关文章

时间归档

June 20261209 篇已发布文章

延伸阅读

本地LLM速度革命:毫秒级推理如何终结云端依赖一场静默的革命正在重写本地AI推理的规则。通过重新架构内存管理与推理管线,开发者已在消费级GPU上实现接近实时的响应速度。这一突破将本地大语言模型从新奇玩物转变为实用、保护隐私的云端AI替代方案。8美元芯片跑大模型:ESP32-S3打破边缘AI成本壁垒一位开发者成功在售价仅8美元的ESP32-S3微控制器上运行了完整的大语言模型,证明LLM可以摆脱云端依赖。这一在极端量化与模型剪枝上的突破,为低功耗设备解锁了离线、隐私保护的AI能力,彻底改写了边缘部署的成本公式。每秒775个Token:DiffusionGemma如何改写本地AI的速度极限DiffusionGemma,一款基于扩散架构的语言模型,在单块Nvidia RTX 6000 Pro GPU上以BF16精度实现了每秒775个Token的推理速度。这一性能打破了只有云端集群才能提供高质量生成式AI的固有认知,标志着实时本From AI Pioneer to BlackBerry: Why OpenAI Must Reinvent or Fade AwayA new industry analysis draws a stark parallel between OpenAI and BlackBerry's fall from grace. Despite pioneering large

常见问题

这次模型发布“LFM 2.5 and MT-LNN: The Post-Transformer Era Begins Now”的核心内容是什么?

For the past decade, the Transformer has been the undisputed backbone of natural language processing and generative AI. But a quiet revolution is underway. LFM 2.5 (Linear Feedback…

从“LFM 2.5 vs Mamba comparison”看,这个模型发布为什么重要?

The core innovation behind LFM 2.5 and MT-LNN lies in replacing the attention mechanism—the heart of Transformers—with a liquid neural network (LNN) backbone coupled with linear feedback. Traditional Transformers compute…

围绕“MT-LNN AwareLiquid GitHub tutorial”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。