技术深度解析
OpenMythos架构提议对Transformer模块进行根本性的重新设计。在标准Transformer中,每一层通过自注意力和前馈网络处理输入序列,并将整个转换后的序列传递给下一层。在单次前向传播中,信息流严格遵循前馈方式。OpenMythos则在模块*内部*或跨越一小群模块引入了循环回路。
其核心在于,所提议的循环Transformer模块维护一个潜在状态向量,该向量会被迭代更新。对于给定的输入(或长序列的一个片段),模块先处理一次,更新其内部状态,随后可选择性地利用更新后状态提供的新上下文,再次处理同一输入。这允许进行迭代优化。在一个处理周期内,模块在步骤`t`的隐藏状态`h_t`的简化概念性更新可能如下所示:`h_t = LayerNorm(Attention(Concat(x, h_{t-1})) + FFN(Concat(x, h_{t-1})))`,其中`x`是输入。关键在于,注意力和前馈网络层的参数在这些循环步骤中是共享的,从而在不增加参数量的情况下,显著提升了处理的‘有效深度’。
这一设计灵感来源于多个研究脉络。Universal Transformers(Dehghani等人,2018年)引入了跨层的自适应计算时间和循环。更近期的模型如RWKV(一种具有Transformer级别性能的RNN风格架构)和Mamba(一种状态空间模型)已经证明了基于非注意力机制、有状态的序列模型的可行性。OpenMythos似乎是一种综合尝试,旨在保留注意力机制表达能力的同时,嫁接循环的记忆与效率优势。
主要的GitHub仓库`open-mythos/arch`提供了核心构建模块的PyTorch实现。虽然仍处于实验阶段,但它已引起广泛关注,获得了超过2.8k星标,并有活跃的分支项目探索与Hugging Face的Transformers库等现有模型框架的集成。贡献者在合成任务上分享的早期非同行评审基准测试显示,在需要记忆的算法任务(如复制长序列或执行迭代算术)上取得了有希望的结果。
| 架构 | 核心机制 | 上下文窗口扩展性 | 有状态记忆 | 推理成本(相对值) |
|---|---|---|---|---|
| 标准Transformer | 全局自注意力 | O(N²) 内存,O(N²) 时间 | 否(仅上下文窗口) | 1.0(基线) |
| Transformer + RoPE/ALiBi | 位置编码 | 线性/对数注意力 | 否 | ~0.9-1.0 |
| Mamba (SSM) | 选择性状态空间 | 线性 | 是(隐式) | ~0.3-0.5 |
| OpenMythos (提议) | 循环 + 局部注意力 | 每步线性,k步为O(kN) | 是(显式潜在状态) | ~0.4-0.7(预估) |
数据要点: 上表突显了权衡空间。标准Transformer为长上下文付出了沉重代价。虽然存在像Mamba这样的高效替代方案,但OpenMythos寻求一种折中方案,提供显式的有状态性,并预估获得更温和的效率提升,其赌注在于:对于某些推理任务,保留的注意力机制值得付出相应的开销。
关键参与者与案例研究
OpenMythos的发展并非孤立事件。它反映了研究机构和企业更广泛的战略转向,即对冲Transformer垄断局限性的风险。
研究先驱: 该项目在概念上的承袭关系是清晰的。Albert Gu在卡内基梅隆大学和斯坦福大学关于Mamba的工作是一个分水岭,证明了状态空间模型在语言任务上可以与Transformer竞争。同样,由Bo Peng领导的RWKV项目,围绕其无注意力的RNN架构建立了一个庞大的社区。OpenMythos的贡献者明确试图连接这些领域。值得注意的是,来自Meta FAIR实验室的研究人员发表了关于Infini-Transformer的论文,该模型为无限上下文引入了压缩记忆,这是解决循环问题的一种补充方法。据报道,DeepMind的Gemini模型使用了混合专家系统以提高效率,但并未采用根本性的架构循环。
企业战略动向: 尽管与OpenMythos没有直接关联,但企业研发显示了风向所在。Google DeepMind长期投资于记忆增强网络。Anthropic的Claude及其超过10万的上下文窗口依赖于复杂的位置编码和缓存技术,而非架构变革,这正在将当前范式推向极限。xAI的Grok-1是一个标准的Transformer MoE模型。然而,最具启示性的案例是Microsoft Research。他们近期的LongNet和RetNet论文分别提出了扩张注意力和保留机制,明确以高效长序列处理为目标。RetNet的‘保留’机制是一种可并行化的、类循环结构——与OpenMythos的循环Transformer理念非常接近。这些动向共同表明,主流研究力量正在积极探索后注意力或混合注意力架构,以应对下一代AI模型的需求。