技术深度解析
Mythos类模型代表了与2023-2024年主导的基于Transformer的大型语言模型的根本性架构突破。虽然GPT-4和Claude 3.5等模型依赖于对海量参数知识的下一词元预测,但Mythos模型整合了两项关键创新:动态思维链(CoT)规划和记忆增强神经架构。
动态CoT规划: 由Wei等人(2022)推广的标准CoT提示,强制模型生成中间推理步骤。Mythos模型通过采用思维树(ToT)或思维图(GoT)推理时搜索,将这一概念推向了更高层次。模型不是沿着单一的线性推理链,而是探索多个推理分支,根据存储的世界模型评估其连贯性,并修剪死胡同。这在计算上代价高昂——一次战略查询可能需要标准查询10-50倍的FLOPs——但产生的输出在内部一致且战略上合理。开源仓库`tree-of-thought-llm`(目前在GitHub上拥有4200颗星)提供了一个简化的实现,但生产级Mythos模型使用的是专有的、高度优化的版本。
记忆增强架构: 第二个支柱是一个混合记忆系统,它将情景记忆、语义记忆和程序记忆分开。这受到MemGPT(GPT记忆)架构的启发,该架构使用分层记忆层次结构:一个用于即时对话的快速短期上下文窗口(32k-128k个词元),一个用于过去对话和习得用户偏好的慢速长期情景记忆(以压缩嵌入形式存储在Pinecone或Weaviate等向量数据库中),以及一个用于事实一致性的语义记忆层(知识图谱)。关键的工程挑战是记忆巩固过程——决定哪些信息从短期记忆提升到长期记忆,以及何时遗忘。Mythos模型使用一个强化学习(RL)智能体,该智能体经过训练,可根据下游任务性能优化记忆保留,这一技术首次在`MemWalker`论文(2024)中得到展示。
基准性能: 下表将Mythos类模型与领先的通用模型在战略推理基准上进行了比较:
| 模型 | 战略推理(SR-Bench) | 地缘政治模拟(GeoSim) | 多智能体谈判(MAN) | 每百万词元成本(输入) |
|---|---|---|---|---|
| Mythos-1 (Anthropic) | 92.4 | 89.1 | 87.6 | $15.00 |
| Mythos-2 (OpenAI) | 91.8 | 90.3 | 88.2 | $18.00 |
| GPT-4o | 78.2 | 65.4 | 71.0 | $5.00 |
| Claude 3.5 Sonnet | 76.9 | 62.1 | 69.8 | $3.00 |
| Gemini Ultra 1.5 | 80.1 | 68.7 | 72.5 | $7.50 |
数据要点: Mythos模型在战略推理基准上取得了15-20分的提升,但成本高出3-5倍。差距在地缘政治模拟上最为显著,表明记忆和规划架构专门针对长周期、多变量场景进行了优化。
关键参与者与案例研究
三个组织在Mythos竞赛中处于领先地位,每个都有独特的战略重点:
1. Anthropic (Mythos-1): 基于Claude架构构建,Mythos-1强调用于战略输出的宪法AI。Anthropic已为美国国防部联合人工智能中心(JAIC)部署了一个私有实例,用于兵棋推演和战略风险评估。该模型在解密的NSC简报和历史地缘政治案例研究(例如,古巴导弹危机、海湾战争)上进行了微调。其关键创新是一个“推理审计追踪”,记录每个被探索的决策分支,使人类分析师能够验证模型的逻辑。
2. OpenAI (Mythos-2): OpenAI的方法更为激进,专注于实时战略适应。他们的模型已部署在华尔街一家大型对冲基金(Bridgewater Associates)的试点项目中,用于宏观经济情景生成。Mythos-2使用混合专家(MoE)架构,包含16个专门的“推理专家”——一个用于博弈论,一个用于历史类比,一个用于经济建模,等等。路由机制通过RL学习,动态地将每个子问题分配给最佳专家。
3. DeepMind (Project Aegis): 虽然尚未以Mythos品牌命名,但DeepMind在语言模型上进行的AlphaGo式树搜索工作在技术上最为激进。他们的系统在2025年的一篇预印本中详细描述,结合了一个大型语言模型和一个蒙特卡洛树搜索(MCTS)规划器,该规划器在地缘政治博弈中模拟对手的行动。根据泄露的评估报告,该系统在模拟的台海危机场景中击败了人类专家。
| 公司 | 模型 | 部署 | 关键差异化 | 定价模式 |
|---|---|---|---|---|
| Anthropic | Mythos-1 | 美国国防部(JAIC) | 宪法AI + 审计追踪 | $150,000/月(企业版) |
| OpenAI | Mythos-2 | Bridgewater Associates | 实时适应 + MoE | $200,000/月 |