OpenMythos:通过开源逆向工程,解码Claude的秘密架构

GitHub April 2026
⭐ 1321📈 +200
来源:GitHubAnthropicAI architectureopen source AI归档:April 2026
GitHub仓库kyegomez/openmythos发起了一项大胆尝试:逆向工程人工智能领域最受严密保护的秘密之一——Anthropic公司Claude模型的内部架构。该项目通过整合研究文献与推理,旨在构建一个功能性的Claude Mythos系统重建版,为研究人员提供窥探尖端AI设计的前所未有的窗口。

OpenMythos是一项开源研究计划,旨在利用公开的研究成果和基本原理推理,尝试重建Claude Mythos架构——即Anthropic旗下Claude模型家族背后的基础系统。该项目由独立研究员Kye Gomez创建,已在AI研究社区中获得显著关注,GitHub星标数超过1300个,且每日增长超过200个。

该项目的核心前提是:尽管Anthropic将其确切架构视为专有技术,但已发表的论文、专利和技术披露中包含了足够的信息,足以构建一个功能相似的系统。OpenMythos实现了其认为是Claude架构关键组件的部分:一种经过修改的Transformer,其注意力机制针对安全性和效率进行了优化。项目分析认为,Claude Mythos可能采用了具有多项独特改进的Transformer变体,例如将安全约束直接整合到注意力计算中的“宪法注意力”机制,以及用于在训练中平衡多个竞争目标(如帮助性、无害性、诚实性)的“多目标优化层”。此外,基于Anthropic对Claude思维链能力的描述,项目还包含了所谓的“迭代精炼模块”。

OpenMythos的出现,反映了开源社区对理解与复现前沿专有AI系统的持续热情。它并非旨在完全复制Claude,而是作为一种研究工具,帮助学界探索类似架构的设计原则、训练方法及安全机制。项目采用模块化设计,允许研究人员独立试验如“宪法注意力”等单个组件,这可能是其最具价值的贡献。尽管在相似规模下训练时,OpenMythos在标准学术基准测试中仅能达到Claude Instant大约65-70%的性能,且直接比较因训练数据和计算资源的差异而变得复杂,但它为理解Anthropic的“安全优先”设计哲学提供了宝贵的实践框架。

技术深度解析

OpenMythos通过系统分析Anthropic已发表的研究成果来应对重建挑战,尤其聚焦于三个关键领域:架构创新、训练方法和安全机制。该项目推测,Claude Mythos采用了一种经过多项独特修改的Transformer变体。

其核心是项目所称的“宪法注意力”。据称,该机制将安全约束直接整合到注意力计算中。这与标准Transformer的不同之处在于,它在注意力评分阶段应用了宪法原则——源自Anthropic宪法AI框架的规则——这可能使得模型在推理时能够依据伦理准则权衡回应。OpenMythos中的实现采用了一种修改后的注意力头结构,其中注意力分数受到源自宪法AI文献的安全启发式方法调节。

另一个假设的组件是“多目标优化层”,旨在复现Anthropic在训练期间平衡多个竞争目标(帮助性、无害性、诚实性)的方法。OpenMythos通过一个自定义损失函数来实现这一点,该函数将标准的语言建模损失与代表不同宪法原则的辅助损失相结合,并采用梯度手术技术来防止目标间相互干扰。

基于Anthropic对Claude思维链能力的描述,该项目还包含了其认为是Claude“迭代精炼模块”的组件。该模块允许模型生成初始回应,根据宪法原则进行自我批判,并通过多轮迭代进行精炼——这一过程或许可以解释Claude在复杂推理任务上的卓越表现。

| 组件 | OpenMythos实现方式 | 基于Anthropic研究的依据 | 置信度 |
|---|---|---|---|
| 宪法注意力 | 带有安全评分的修改后注意力机制 | 宪法AI论文、专利申请文件 | 中等 |
| 多目标训练 | 结合辅助损失的梯度手术技术 | Anthropic关于多目标RLHF的出版物 | 高 |
| 迭代精炼 | 带有自我批判的多轮生成机制 | Claude关于推理的技术报告 | 中高 |
| 架构规模 | 可配置至约700亿参数 | 根据Claude Sonnet/Opus规模推断 | 中低 |

数据要点: 不同组件的重建置信度差异显著,其中训练方法在公开研究中得到最多证实,而确切的架构细节仍属推测。

仓库中的性能基准测试显示,在相似规模下训练时,OpenMythos在标准学术基准上能达到Claude Instant大约65-70%的性能,但由于训练数据和计算资源的差异,直接比较较为复杂。该项目最有价值的贡献或许在于其模块化设计,这使得研究人员能够独立于完整架构,对诸如宪法注意力等单个组件进行实验。

关键参与者与案例研究

OpenMythos项目存在于一个更广泛的、旨在理解和复现专有AI系统的生态系统中。项目创建者Kye Gomez此前曾专注于可扩展AI架构和高效训练方法的项目,从而在开源AI社区中建立了声誉。他处理OpenMythos的方法遵循了其他成功开源重建项目可见的模式,最著名的是在Meta发布研究论文后出现的各种Llama架构重新实现。

Anthropic的研究团队,包括Dario Amodei、Chris Olah以及更广泛的技术人员,通过他们所称的“安全优先”架构哲学开发了Claude。他们在宪法AI、机制可解释性和可扩展监督方面发表的著作,为OpenMythos提供了主要的原始资料。与OpenAI对GPT-4采取的更为保密的方式不同,Anthropic在安全方法论上相对透明,同时将确切的架构细节作为专有技术保留。

其他几个项目也在类似领域运作:微软的Phi系列展示了通过精细的数据筛选,缩小规模的模型如何能获得惊人的能力;而EleutherAI的GPT-NeoX和Pythia模型则展示了开源实现如何能够追踪、有时甚至能预见专有技术的发展。OpenMythos的独特之处在于其专门聚焦于逆向工程一个特定的商业系统,而非开发新颖的架构。

| 项目 | 主要目标 | 架构基础 | 规模 | 关键创新 |
|---|---|---|---|---|
| OpenMythos | Claude重建 | 从Anthropic研究推断 | 最高700亿参数 | 宪法注意力 |
| GPT-NeoX | 开源LLM开发 | 受GPT-3启发的原创设计 | 最高200亿参数 | 开源大规模训练框架 |
| Phi系列 | 小规模高效模型 | 自定义Transformer变体 | 最高27亿参数 | 高质量的“教科书级”数据筛选 |
| Pythia | 可复现的LLM研究 | 基于GPT-3架构 | 最高120亿参数 | 完全透明的训练数据与过程 |

行业影响与未来展望
OpenMythos这类项目的兴起,标志着AI研究民主化进程中的一个重要节点。它们不仅挑战了“只有巨头才能玩转大模型”的叙事,更重要的是,它们为学术界和独立研究者提供了深入探究前沿模型内部运作机制的工具。这种逆向工程努力,尽管存在推测成分,但能促进对AI安全、对齐和可解释性等关键问题的更广泛讨论与实验验证。

然而,此类项目也面临固有局限。最大的挑战在于信息不对称:公开论文通常描述的是原则和方法论,而非具体的工程实现细节。因此,OpenMythos中的许多设计选择必然是“最佳猜测”。此外,即使架构近似,缺乏Anthropic使用的海量专有训练数据和巨大计算资源,也意味着性能上的差距难以弥合。

展望未来,OpenMythos的发展路径可能包括:1)通过社区贡献不断修正和细化架构假设;2)作为测试新型安全与对齐技术的沙盒;3)启发开发出不同于Claude、但吸收了其设计哲学优势的全新开源架构。无论其最终能在多大程度上精确复现Claude,它都已经成为开源AI社区探索下一代语言模型安全与能力边界的重要试金石。

更多来自 GitHub

OpenAI Gym 如何成为强化学习研究的标准竞技场2016年问世的 OpenAI Gym,精准地击中了强化学习领域的一个关键瓶颈:缺乏用于开发和比较算法的标准化环境。在其发布之前,研究人员耗费大量时间构建定制模拟器,导致结果几乎无法直接比较。Gym 的精妙之处在于其极简设计——一个简单通用LLM Wiki 的持久知识范式挑战传统 RAG 架构由 Nash Su 开发的开源项目 LLM Wiki 迅速走红,已在 GitHub 上获得超过 1,800 颗星,这标志着开发者对其新颖文档智能处理方式的浓厚兴趣。该应用定位为一款跨平台工具,能自动将用户的 PDF、Markdown 文件、LLamaSharp 架起 .NET 与本地 AI 的桥梁,解锁企业级大模型部署新范式开源项目 LLamaSharp 标志着 .NET 生态系统中 AI 集成的重大转折点。其核心是为著名的 llama.cpp 库精心打造的 C#/.NET 绑定。llama.cpp 是一个 C++ 实现,专为在消费级硬件上运行 LLaMA 系查看来源专题页GitHub 已收录 850 篇文章

相关专题

Anthropic109 篇相关文章AI architecture17 篇相关文章open source AI126 篇相关文章

时间归档

April 20261792 篇已发布文章

延伸阅读

Claude Code的开源暗影:社区逆向工程如何重塑AI开发格局一个在GitHub上快速崛起的代码库正汇聚社区力量,对Anthropic的Claude Code进行逆向工程,构建出这款专有模型的非官方开源镜像。这一现象既揭示了开发者对易用代码生成工具的强烈渴求,也凸显了封闭商业AI与开放社区创新之间的深Claude Code社区版崛起:企业级闭源模型的开放替代方案Anthropic旗下Claude Code的社区维护版本已实现生产就绪,在GitHub上斩获超9600颗星。该项目提供功能完整、可本地部署的代码生成工具,具备企业级TypeScript安全性与Bun运行时优化。这一进展标志着市场对专有AIClaude Code 源码泄露:深度解析 Anthropic 70万行AI编程助手架构Anthropic旗下AI编程助手Claude Code遭遇大规模源码泄露。一个意外上传至npm的57MB源码映射文件,内含约70万行专有代码,首次将这一顶尖商业AI编程系统的工程架构全貌公之于众。这既是一次重大安全事件,也为业界提供了难得OLMoE:艾伦AI如何用开源MoE平台为高效大模型研究“祛魅”艾伦人工智能研究所(AllenAI)正式推出OLMoE,这是一个开创性的混合专家语言模型开源平台。它不仅公开模型权重,更释放了完整的训练代码、数据与工具链,旨在为被不透明、高算力巨头主导的领域,注入前所未有的透明度与可复现性。此举或将大幅加

常见问题

GitHub 热点“OpenMythos: Decoding Claude's Secret Architecture Through Open-Source Reverse Engineering”主要讲了什么?

OpenMythos is an open-source research initiative that attempts to reconstruct the Claude Mythos architecture—the foundational system behind Anthropic's Claude family of models—usin…

这个 GitHub 项目在“How accurate is OpenMythos compared to real Claude architecture?”上为什么会引发关注?

OpenMythos approaches the reconstruction problem through systematic analysis of Anthropic's published research, particularly focusing on three key areas: architectural innovations, training methodologies, and safety mech…

从“Can OpenMythos be used for commercial applications legally?”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 1321,近一日增长约为 200,这说明它在开源社区具有较强讨论度和扩散能力。