OpenMythos与循环Transformer的崛起：超越注意力机制，重构AI架构基石

2026年4月21日 17:43 AINews Hacker News April 2026

来源：Hacker News AI architecture 归档：April 2026

开源项目OpenMythos正挑战现代AI的一项基本原则：Transformer的前馈架构。它提出的‘循环Transformer’设计，旨在解决长上下文处理与计算效率的核心局限。这标志着一个关键转折点——社区正从复现模型转向主动设计下一代基础架构。

开源AI社区正酝酿一场静默的革命，其核心是一个名为OpenMythos的项目。与微调现有大语言模型不同，其贡献者正试图对AI核心架构本身进行根本性的重新构想。该项目的核心论点是：标准Transformer虽具革命性，但对于需要持久状态、长期记忆以及迭代式多步推理的任务，其本质上是低效的。其提出的解决方案是‘循环Transformer’——一种将循环神经网络原理（特别是有状态的循环）整合进Transformer模块的混合架构。这并非渐进式修补，而是一次哲学层面的转向，旨在突破以GPT为代表的无状态、重度依赖注意力的处理范式。

OpenMythos的出现，反映了AI研究从单纯规模扩张到架构创新的深层演变。长期以来，Transformer凭借其强大的并行计算能力和注意力机制主导了领域发展，但其在长序列处理上的二次方复杂度、以及缺乏真正跨序列的持久记忆，已成为公认瓶颈。OpenMythos试图融合RNN的状态保持能力与Transformer的表达能力，为需要复杂推理和长期依赖的任务提供一种新的底层方案。这一探索并非孤例，它呼应了RWKV、Mamba等模型对非注意力、有状态架构的验证，也体现了研究界对突破Transformer单一范式的集体渴望。项目的初步实现已获得社区高度关注，其GitHub仓库收获大量星标，预示着架构创新可能成为开源AI发展的下一个前沿阵地。

技术深度解析

OpenMythos架构提议对Transformer模块进行根本性的重新设计。在标准Transformer中，每一层通过自注意力和前馈网络处理输入序列，并将整个转换后的序列传递给下一层。在单次前向传播中，信息流严格遵循前馈方式。OpenMythos则在模块*内部*或跨越一小群模块引入了循环回路。

其核心在于，所提议的循环Transformer模块维护一个潜在状态向量，该向量会被迭代更新。对于给定的输入（或长序列的一个片段），模块先处理一次，更新其内部状态，随后可选择性地利用更新后状态提供的新上下文，再次处理同一输入。这允许进行迭代优化。在一个处理周期内，模块在步骤`t`的隐藏状态`h_t`的简化概念性更新可能如下所示：`h_t = LayerNorm(Attention(Concat(x, h_{t-1})) + FFN(Concat(x, h_{t-1})))`，其中`x`是输入。关键在于，注意力和前馈网络层的参数在这些循环步骤中是共享的，从而在不增加参数量的情况下，显著提升了处理的‘有效深度’。

这一设计灵感来源于多个研究脉络。Universal Transformers（Dehghani等人，2018年）引入了跨层的自适应计算时间和循环。更近期的模型如RWKV（一种具有Transformer级别性能的RNN风格架构）和Mamba（一种状态空间模型）已经证明了基于非注意力机制、有状态的序列模型的可行性。OpenMythos似乎是一种综合尝试，旨在保留注意力机制表达能力的同时，嫁接循环的记忆与效率优势。

主要的GitHub仓库`open-mythos/arch`提供了核心构建模块的PyTorch实现。虽然仍处于实验阶段，但它已引起广泛关注，获得了超过2.8k星标，并有活跃的分支项目探索与Hugging Face的Transformers库等现有模型框架的集成。贡献者在合成任务上分享的早期非同行评审基准测试显示，在需要记忆的算法任务（如复制长序列或执行迭代算术）上取得了有希望的结果。

| 架构 | 核心机制 | 上下文窗口扩展性 | 有状态记忆 | 推理成本（相对值） |
|---|---|---|---|---|
| 标准Transformer | 全局自注意力 | O(N²) 内存，O(N²) 时间 | 否（仅上下文窗口） | 1.0（基线） |
| Transformer + RoPE/ALiBi | 位置编码 | 线性/对数注意力 | 否 | ~0.9-1.0 |
| Mamba (SSM) | 选择性状态空间 | 线性 | 是（隐式） | ~0.3-0.5 |
| OpenMythos (提议) | 循环 + 局部注意力 | 每步线性，k步为O(kN) | 是（显式潜在状态） | ~0.4-0.7（预估） |

数据要点： 上表突显了权衡空间。标准Transformer为长上下文付出了沉重代价。虽然存在像Mamba这样的高效替代方案，但OpenMythos寻求一种折中方案，提供显式的有状态性，并预估获得更温和的效率提升，其赌注在于：对于某些推理任务，保留的注意力机制值得付出相应的开销。

关键参与者与案例研究

OpenMythos的发展并非孤立事件。它反映了研究机构和企业更广泛的战略转向，即对冲Transformer垄断局限性的风险。

研究先驱： 该项目在概念上的承袭关系是清晰的。Albert Gu在卡内基梅隆大学和斯坦福大学关于Mamba的工作是一个分水岭，证明了状态空间模型在语言任务上可以与Transformer竞争。同样，由Bo Peng领导的RWKV项目，围绕其无注意力的RNN架构建立了一个庞大的社区。OpenMythos的贡献者明确试图连接这些领域。值得注意的是，来自Meta FAIR实验室的研究人员发表了关于Infini-Transformer的论文，该模型为无限上下文引入了压缩记忆，这是解决循环问题的一种补充方法。据报道，DeepMind的Gemini模型使用了混合专家系统以提高效率，但并未采用根本性的架构循环。

企业战略动向： 尽管与OpenMythos没有直接关联，但企业研发显示了风向所在。Google DeepMind长期投资于记忆增强网络。Anthropic的Claude及其超过10万的上下文窗口依赖于复杂的位置编码和缓存技术，而非架构变革，这正在将当前范式推向极限。xAI的Grok-1是一个标准的Transformer MoE模型。然而，最具启示性的案例是Microsoft Research。他们近期的LongNet和RetNet论文分别提出了扩张注意力和保留机制，明确以高效长序列处理为目标。RetNet的‘保留’机制是一种可并行化的、类循环结构——与OpenMythos的循环Transformer理念非常接近。这些动向共同表明，主流研究力量正在积极探索后注意力或混合注意力架构，以应对下一代AI模型的需求。

时间归档

常见问题

GitHub 热点“OpenMythos and the Rise of Recurrent Transformers: Redefining AI Architecture Beyond Attention”主要讲了什么？

A quiet revolution is brewing in the open-source AI community, centered on a project called OpenMythos. Rather than fine-tuning existing large language models (LLMs), its contribut…

这个 GitHub 项目在“OpenMythos vs Mamba performance comparison”上为什么会引发关注？

The OpenMythos architecture proposes a fundamental re-engineering of the Transformer block. In a standard Transformer, each layer processes an input sequence through self-attention and a feed-forward network, passing the…

从“how to implement recurrent transformer PyTorch”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 0，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。

OpenMythos与循环Transformer的崛起：超越注意力机制，重构AI架构基石

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

相关专题

时间归档

延伸阅读

常见问题