OpenMythos与循环Transformer的崛起:超越注意力机制,重构AI架构基石

Hacker News April 2026
来源:Hacker NewsAI architecturelong-context AI归档:April 2026
开源项目OpenMythos正挑战现代AI的一项基本原则:Transformer的前馈架构。它提出的‘循环Transformer’设计,旨在解决长上下文处理与计算效率的核心局限。这标志着一个关键转折点——社区正从复现模型转向主动设计下一代基础架构。

开源AI社区正酝酿一场静默的革命,其核心是一个名为OpenMythos的项目。与微调现有大语言模型不同,其贡献者正试图对AI核心架构本身进行根本性的重新构想。该项目的核心论点是:标准Transformer虽具革命性,但对于需要持久状态、长期记忆以及迭代式多步推理的任务,其本质上是低效的。其提出的解决方案是‘循环Transformer’——一种将循环神经网络原理(特别是有状态的循环)整合进Transformer模块的混合架构。这并非渐进式修补,而是一次哲学层面的转向,旨在突破以GPT为代表的无状态、重度依赖注意力的处理范式。

OpenMythos的出现,反映了AI研究从单纯规模扩张到架构创新的深层演变。长期以来,Transformer凭借其强大的并行计算能力和注意力机制主导了领域发展,但其在长序列处理上的二次方复杂度、以及缺乏真正跨序列的持久记忆,已成为公认瓶颈。OpenMythos试图融合RNN的状态保持能力与Transformer的表达能力,为需要复杂推理和长期依赖的任务提供一种新的底层方案。这一探索并非孤例,它呼应了RWKV、Mamba等模型对非注意力、有状态架构的验证,也体现了研究界对突破Transformer单一范式的集体渴望。项目的初步实现已获得社区高度关注,其GitHub仓库收获大量星标,预示着架构创新可能成为开源AI发展的下一个前沿阵地。

技术深度解析

OpenMythos架构提议对Transformer模块进行根本性的重新设计。在标准Transformer中,每一层通过自注意力和前馈网络处理输入序列,并将整个转换后的序列传递给下一层。在单次前向传播中,信息流严格遵循前馈方式。OpenMythos则在模块*内部*或跨越一小群模块引入了循环回路。

其核心在于,所提议的循环Transformer模块维护一个潜在状态向量,该向量会被迭代更新。对于给定的输入(或长序列的一个片段),模块先处理一次,更新其内部状态,随后可选择性地利用更新后状态提供的新上下文,再次处理同一输入。这允许进行迭代优化。在一个处理周期内,模块在步骤`t`的隐藏状态`h_t`的简化概念性更新可能如下所示:`h_t = LayerNorm(Attention(Concat(x, h_{t-1})) + FFN(Concat(x, h_{t-1})))`,其中`x`是输入。关键在于,注意力和前馈网络层的参数在这些循环步骤中是共享的,从而在不增加参数量的情况下,显著提升了处理的‘有效深度’。

这一设计灵感来源于多个研究脉络。Universal Transformers(Dehghani等人,2018年)引入了跨层的自适应计算时间和循环。更近期的模型如RWKV(一种具有Transformer级别性能的RNN风格架构)和Mamba(一种状态空间模型)已经证明了基于非注意力机制、有状态的序列模型的可行性。OpenMythos似乎是一种综合尝试,旨在保留注意力机制表达能力的同时,嫁接循环的记忆与效率优势。

主要的GitHub仓库`open-mythos/arch`提供了核心构建模块的PyTorch实现。虽然仍处于实验阶段,但它已引起广泛关注,获得了超过2.8k星标,并有活跃的分支项目探索与Hugging Face的Transformers库等现有模型框架的集成。贡献者在合成任务上分享的早期非同行评审基准测试显示,在需要记忆的算法任务(如复制长序列或执行迭代算术)上取得了有希望的结果。

| 架构 | 核心机制 | 上下文窗口扩展性 | 有状态记忆 | 推理成本(相对值) |
|---|---|---|---|---|
| 标准Transformer | 全局自注意力 | O(N²) 内存,O(N²) 时间 | 否(仅上下文窗口) | 1.0(基线) |
| Transformer + RoPE/ALiBi | 位置编码 | 线性/对数注意力 | 否 | ~0.9-1.0 |
| Mamba (SSM) | 选择性状态空间 | 线性 | 是(隐式) | ~0.3-0.5 |
| OpenMythos (提议) | 循环 + 局部注意力 | 每步线性,k步为O(kN) | 是(显式潜在状态) | ~0.4-0.7(预估) |

数据要点: 上表突显了权衡空间。标准Transformer为长上下文付出了沉重代价。虽然存在像Mamba这样的高效替代方案,但OpenMythos寻求一种折中方案,提供显式的有状态性,并预估获得更温和的效率提升,其赌注在于:对于某些推理任务,保留的注意力机制值得付出相应的开销。

关键参与者与案例研究

OpenMythos的发展并非孤立事件。它反映了研究机构和企业更广泛的战略转向,即对冲Transformer垄断局限性的风险。

研究先驱: 该项目在概念上的承袭关系是清晰的。Albert Gu在卡内基梅隆大学和斯坦福大学关于Mamba的工作是一个分水岭,证明了状态空间模型在语言任务上可以与Transformer竞争。同样,由Bo Peng领导的RWKV项目,围绕其无注意力的RNN架构建立了一个庞大的社区。OpenMythos的贡献者明确试图连接这些领域。值得注意的是,来自Meta FAIR实验室的研究人员发表了关于Infini-Transformer的论文,该模型为无限上下文引入了压缩记忆,这是解决循环问题的一种补充方法。据报道,DeepMind的Gemini模型使用了混合专家系统以提高效率,但并未采用根本性的架构循环。

企业战略动向: 尽管与OpenMythos没有直接关联,但企业研发显示了风向所在。Google DeepMind长期投资于记忆增强网络。Anthropic的Claude及其超过10万的上下文窗口依赖于复杂的位置编码和缓存技术,而非架构变革,这正在将当前范式推向极限。xAI的Grok-1是一个标准的Transformer MoE模型。然而,最具启示性的案例是Microsoft Research。他们近期的LongNetRetNet论文分别提出了扩张注意力和保留机制,明确以高效长序列处理为目标。RetNet的‘保留’机制是一种可并行化的、类循环结构——与OpenMythos的循环Transformer理念非常接近。这些动向共同表明,主流研究力量正在积极探索后注意力或混合注意力架构,以应对下一代AI模型的需求。

更多来自 Hacker News

Agensi与AI技能市场崛起:智能体能力如何成为新经济层Agensi的发布标志着AI智能体领域的关键成熟,其范式正从封闭的单体模型开发转向模块化、可互操作的智能能力经济。其核心是Anthropic推出的SKILL.md格式规范,该规范将代码、指令和上下文打包成标准化容器,为Claude CodeGPT Image 2 悄然登场:原生多模态图像生成的静默革命随着GPT Image 2的出现,生成式AI领域正经历一场微妙而深刻的架构演进。与当前主流范式——将大型语言模型与独立的图像扩散模型串联——不同,这一新系统自称是原生多模态生成器。其核心承诺在于,将语言理解和图像生成视为单一、统一架构内的一AgentSearch推出自托管搜索API,挑战AI代理对商业服务的依赖能够自主行动的复杂AI代理的发展,长期受制于一个关键依赖:可靠、经济且私密的实时网络搜索接入。主流商业搜索API虽功能强大,却因按查询收费、严格速率限制及数据隐私顾虑(所有查询与获取数据均流经第三方服务器)带来巨大阻力。AgentSearc查看来源专题页Hacker News 已收录 2250 篇文章

相关专题

AI architecture19 篇相关文章long-context AI15 篇相关文章

时间归档

April 20261937 篇已发布文章

延伸阅读

Autoloom:极简AI智能体框架,挑战行业对复杂性的痴迷开源AI智能体框架Autoloom横空出世,其哲学理念与行业追求更大、更复杂系统的潮流背道而驰。它基于确定性的tinyloom库构建,优先考虑简洁性、可预测性和低计算开销,有望在现有智能体难以胜任的高可靠性领域开辟新应用。SigMap以97%上下文压缩率重塑AI经济学,蛮力扩展上下文窗口的时代宣告终结开源框架SigMap正在挑战现代AI发展的核心经济假设——即更多上下文必然带来指数级成本增长。通过对代码上下文进行智能压缩与优先级排序,实现高达97%的token使用削减,它有望大幅降低复杂长周期AI任务的门槛。这标志着AI开发正从蛮力堆砌AgentSearch推出自托管搜索API,挑战AI代理对商业服务的依赖一款名为AgentSearch的新工具正重新定义AI代理访问网络的方式。它提供无需商业密钥的自托管容器化搜索API,直击制约自主代理开发的成本、隐私与控制力瓶颈。这项创新有望显著降低构建私有化、去中心化AI系统的门槛。Comrade AI工作空间:开源、安全优先的设计如何挑战智能体现状开源项目Comrade正对主流的AI驱动开发与团队工作空间SaaS模式发起直接挑战。它将精致的用户界面与严格的本地优先、安全优先理念相结合,为组织提供了一条利用先进AI智能体而无需交出敏感数据或工作流程控制权的路径。

常见问题

GitHub 热点“OpenMythos and the Rise of Recurrent Transformers: Redefining AI Architecture Beyond Attention”主要讲了什么?

A quiet revolution is brewing in the open-source AI community, centered on a project called OpenMythos. Rather than fine-tuning existing large language models (LLMs), its contribut…

这个 GitHub 项目在“OpenMythos vs Mamba performance comparison”上为什么会引发关注?

The OpenMythos architecture proposes a fundamental re-engineering of the Transformer block. In a standard Transformer, each layer processes an input sequence through self-attention and a feed-forward network, passing the…

从“how to implement recurrent transformer PyTorch”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。