OpenMythos与循环Transformer的崛起:超越注意力机制,重构AI架构基石

Hacker News April 2026
来源:Hacker NewsAI architecture归档:April 2026
开源项目OpenMythos正挑战现代AI的一项基本原则:Transformer的前馈架构。它提出的‘循环Transformer’设计,旨在解决长上下文处理与计算效率的核心局限。这标志着一个关键转折点——社区正从复现模型转向主动设计下一代基础架构。

开源AI社区正酝酿一场静默的革命,其核心是一个名为OpenMythos的项目。与微调现有大语言模型不同,其贡献者正试图对AI核心架构本身进行根本性的重新构想。该项目的核心论点是:标准Transformer虽具革命性,但对于需要持久状态、长期记忆以及迭代式多步推理的任务,其本质上是低效的。其提出的解决方案是‘循环Transformer’——一种将循环神经网络原理(特别是有状态的循环)整合进Transformer模块的混合架构。这并非渐进式修补,而是一次哲学层面的转向,旨在突破以GPT为代表的无状态、重度依赖注意力的处理范式。

OpenMythos的出现,反映了AI研究从单纯规模扩张到架构创新的深层演变。长期以来,Transformer凭借其强大的并行计算能力和注意力机制主导了领域发展,但其在长序列处理上的二次方复杂度、以及缺乏真正跨序列的持久记忆,已成为公认瓶颈。OpenMythos试图融合RNN的状态保持能力与Transformer的表达能力,为需要复杂推理和长期依赖的任务提供一种新的底层方案。这一探索并非孤例,它呼应了RWKV、Mamba等模型对非注意力、有状态架构的验证,也体现了研究界对突破Transformer单一范式的集体渴望。项目的初步实现已获得社区高度关注,其GitHub仓库收获大量星标,预示着架构创新可能成为开源AI发展的下一个前沿阵地。

技术深度解析

OpenMythos架构提议对Transformer模块进行根本性的重新设计。在标准Transformer中,每一层通过自注意力和前馈网络处理输入序列,并将整个转换后的序列传递给下一层。在单次前向传播中,信息流严格遵循前馈方式。OpenMythos则在模块*内部*或跨越一小群模块引入了循环回路。

其核心在于,所提议的循环Transformer模块维护一个潜在状态向量,该向量会被迭代更新。对于给定的输入(或长序列的一个片段),模块先处理一次,更新其内部状态,随后可选择性地利用更新后状态提供的新上下文,再次处理同一输入。这允许进行迭代优化。在一个处理周期内,模块在步骤`t`的隐藏状态`h_t`的简化概念性更新可能如下所示:`h_t = LayerNorm(Attention(Concat(x, h_{t-1})) + FFN(Concat(x, h_{t-1})))`,其中`x`是输入。关键在于,注意力和前馈网络层的参数在这些循环步骤中是共享的,从而在不增加参数量的情况下,显著提升了处理的‘有效深度’。

这一设计灵感来源于多个研究脉络。Universal Transformers(Dehghani等人,2018年)引入了跨层的自适应计算时间和循环。更近期的模型如RWKV(一种具有Transformer级别性能的RNN风格架构)和Mamba(一种状态空间模型)已经证明了基于非注意力机制、有状态的序列模型的可行性。OpenMythos似乎是一种综合尝试,旨在保留注意力机制表达能力的同时,嫁接循环的记忆与效率优势。

主要的GitHub仓库`open-mythos/arch`提供了核心构建模块的PyTorch实现。虽然仍处于实验阶段,但它已引起广泛关注,获得了超过2.8k星标,并有活跃的分支项目探索与Hugging Face的Transformers库等现有模型框架的集成。贡献者在合成任务上分享的早期非同行评审基准测试显示,在需要记忆的算法任务(如复制长序列或执行迭代算术)上取得了有希望的结果。

| 架构 | 核心机制 | 上下文窗口扩展性 | 有状态记忆 | 推理成本(相对值) |
|---|---|---|---|---|
| 标准Transformer | 全局自注意力 | O(N²) 内存,O(N²) 时间 | 否(仅上下文窗口) | 1.0(基线) |
| Transformer + RoPE/ALiBi | 位置编码 | 线性/对数注意力 | 否 | ~0.9-1.0 |
| Mamba (SSM) | 选择性状态空间 | 线性 | 是(隐式) | ~0.3-0.5 |
| OpenMythos (提议) | 循环 + 局部注意力 | 每步线性,k步为O(kN) | 是(显式潜在状态) | ~0.4-0.7(预估) |

数据要点: 上表突显了权衡空间。标准Transformer为长上下文付出了沉重代价。虽然存在像Mamba这样的高效替代方案,但OpenMythos寻求一种折中方案,提供显式的有状态性,并预估获得更温和的效率提升,其赌注在于:对于某些推理任务,保留的注意力机制值得付出相应的开销。

关键参与者与案例研究

OpenMythos的发展并非孤立事件。它反映了研究机构和企业更广泛的战略转向,即对冲Transformer垄断局限性的风险。

研究先驱: 该项目在概念上的承袭关系是清晰的。Albert Gu在卡内基梅隆大学和斯坦福大学关于Mamba的工作是一个分水岭,证明了状态空间模型在语言任务上可以与Transformer竞争。同样,由Bo Peng领导的RWKV项目,围绕其无注意力的RNN架构建立了一个庞大的社区。OpenMythos的贡献者明确试图连接这些领域。值得注意的是,来自Meta FAIR实验室的研究人员发表了关于Infini-Transformer的论文,该模型为无限上下文引入了压缩记忆,这是解决循环问题的一种补充方法。据报道,DeepMind的Gemini模型使用了混合专家系统以提高效率,但并未采用根本性的架构循环。

企业战略动向: 尽管与OpenMythos没有直接关联,但企业研发显示了风向所在。Google DeepMind长期投资于记忆增强网络。Anthropic的Claude及其超过10万的上下文窗口依赖于复杂的位置编码和缓存技术,而非架构变革,这正在将当前范式推向极限。xAI的Grok-1是一个标准的Transformer MoE模型。然而,最具启示性的案例是Microsoft Research。他们近期的LongNetRetNet论文分别提出了扩张注意力和保留机制,明确以高效长序列处理为目标。RetNet的‘保留’机制是一种可并行化的、类循环结构——与OpenMythos的循环Transformer理念非常接近。这些动向共同表明,主流研究力量正在积极探索后注意力或混合注意力架构,以应对下一代AI模型的需求。

更多来自 Hacker News

AI编程助手暴露人类文档的社交成本:开发者为何更愿为机器写说明来自开发者论坛、团队内部复盘和开源项目历史的大量证据,指向一种鲜明的行为分化。那些一贯不为同事编写代码文档的程序员,突然愿意投入大量时间为AI编程助手撰写详细的系统提示、上下文文件和结构化指令。其根源并非懒惰,而是人类沟通中固有的社交摩擦:AI代码质量危机:Rsync漏洞激增暴露LLM语义缺陷拥有30余年历史的Linux文件同步基石rsync项目,正遭遇一类新型漏洞的冲击。AINews追踪发现,这些漏洞源自Claude等大语言模型(LLM)生成的代码贡献。这些并非语法错误——它们能正常编译运行——但在特定边界条件下会失效,尤其集Kaya Suites:开源知识库,架起人类与AI智能体之间的桥梁AINews 独立发现了一个正在崛起的开源项目——Kaya Suites,它试图解决企业AI应用中最关键的瓶颈之一:以人为中心的知识管理与AI智能体所需的结构化、可操作记忆之间的脱节。该项目的核心创新在于“双原生”架构,即存储的每条信息都针查看来源专题页Hacker News 已收录 4231 篇文章

相关专题

AI architecture30 篇相关文章

时间归档

April 20263042 篇已发布文章

延伸阅读

Autoloom:极简AI智能体框架,挑战行业对复杂性的痴迷开源AI智能体框架Autoloom横空出世,其哲学理念与行业追求更大、更复杂系统的潮流背道而驰。它基于确定性的tinyloom库构建,优先考虑简洁性、可预测性和低计算开销,有望在现有智能体难以胜任的高可靠性领域开辟新应用。SigMap以97%上下文压缩率重塑AI经济学,蛮力扩展上下文窗口的时代宣告终结开源框架SigMap正在挑战现代AI发展的核心经济假设——即更多上下文必然带来指数级成本增长。通过对代码上下文进行智能压缩与优先级排序,实现高达97%的token使用削减,它有望大幅降低复杂长周期AI任务的门槛。这标志着AI开发正从蛮力堆砌Anthropic全球AI暂停呼吁:安全圣战还是战略棋局?Anthropic公开呼吁全球暂停前沿AI模型开发,声称技术进展已超越治理能力。这一提议引发激烈争议,AINews深入调查:这究竟是真诚的安全警示,还是巩固市场地位的策略性博弈?开源工具Humanize揭开AI文本军备竞赛新篇章:从黑箱对抗到透明技能全新开源项目Humanize提供两项与LLM无关的核心技能:将AI文本改写为类人写作风格,并检测此类改写痕迹。AINews认为,这标志着AI文本军备竞赛从依赖不透明模型,转向透明、可及的工具,让用户重新掌控文本身份。

常见问题

GitHub 热点“OpenMythos and the Rise of Recurrent Transformers: Redefining AI Architecture Beyond Attention”主要讲了什么?

A quiet revolution is brewing in the open-source AI community, centered on a project called OpenMythos. Rather than fine-tuning existing large language models (LLMs), its contribut…

这个 GitHub 项目在“OpenMythos vs Mamba performance comparison”上为什么会引发关注?

The OpenMythos architecture proposes a fundamental re-engineering of the Transformer block. In a standard Transformer, each layer processes an input sequence through self-attention and a feed-forward network, passing the…

从“how to implement recurrent transformer PyTorch”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。