技术深度解析
DeepSeek-R1的成功复刻,关键在于Transformer架构与一个优先考虑可验证性的强化学习框架的巧妙结合。根据原论文描述,原始模型是一个拥有约670亿参数的密集Transformer解码器。由多所大学和独立实验室的研究人员组成的联盟主导的社区复刻,使用了稍小的变体(约70亿参数)来验证概念,并计划后续进行规模扩展。
核心创新:可验证强化学习
传统的语言模型RL通常依赖基于人类偏好训练的奖励模型。这引入了第二个“黑箱”——奖励模型本身——它可能被操纵或存在偏见。DeepSeek-R1的方法及其复刻,使用了一种可验证奖励信号。系统不采用学习到的奖励模型,而是使用确定性函数来评估模型的输出。例如,在数学问题中,奖励仅取决于最终答案是否正确;在代码生成中,则取决于代码能否编译并通过单元测试。这消除了对单独奖励模型的需求,并使训练过程完全透明且可复现。
训练流程包含三个阶段:
1. 冷启动: 基础模型在一小组高质量的“思维链”示例上进行微调,以教会其推理的基本格式。
2. 可验证RL训练: 使用近端策略优化和可验证奖励信号对模型进行训练。模型为每个提示生成多个推理链。只有那些导向正确答案(由确定性函数验证)的链才被用于更新模型权重。这鼓励模型发现并内化有效的推理策略。
3. 拒绝采样与微调: 来自RL阶段表现最佳的推理链被用于创建精选数据集。然后模型在此数据集上微调以巩固学习成果。
关键GitHub仓库与社区工具
复刻工作主要通过`open-r1` GitHub仓库协调,该仓库已获得超过15,000颗星。此仓库包含:
- 可验证RL流程的完整训练代码。
- 生成可验证奖励数据集(数学、代码、逻辑)的脚本。
- 7B参数变体的预训练模型权重。
- 一份详细的技术报告,记录了每个超参数和设计选择。
另一个关键仓库是`verifiable-reward-benchmark`,它提供了一套用于评估推理模型的标准化任务。该基准包含10,000个涵盖数学、编程和逻辑谜题的问题,每个问题都配有确定性验证器。
性能基准测试
复刻模型`Open-R1-7B`与原始DeepSeek-R1及其他几个开源模型进行了评估。结果令人瞩目:
| 模型 | 参数 | MATH(准确率) | HumanEval(Pass@1) | GSM8K(准确率) | 训练成本(估算) |
|---|---|---|---|---|---|
| DeepSeek-R1(原始) | 67B | 78.2% | 74.1% | 91.5% | 1000万美元以上 |
| Open-R1-7B(复刻) | 7B | 62.4% | 58.3% | 82.1% | 15万美元 |
| Llama 3.1 8B | 8B | 51.3% | 48.9% | 75.6% | 200万美元(预训练) |
| Qwen 2.5 7B | 7B | 55.8% | 52.7% | 79.4% | 150万美元(预训练) |
数据要点: Open-R1-7B模型尽管规模小了近10倍,训练成本也仅为原始模型的一小部分,但其性能显著优于Llama 3.1和Qwen 2.5等类似规模的开源模型。它达到了原始670亿参数DeepSeek-R1约80%的性能,证明可验证RL训练方法非常高效,且模型规模并非推理能力的唯一决定因素。这是对“越大越好”正统观念的直接打击。
关键参与者与案例研究
此次复刻并非单一实体所为,而是一个松散联盟。关键参与者包括:
- 剑桥大学机器学习小组: 主导了可验证RL框架的理论分析,并为可验证奖励训练提供了收敛性的数学证明。
- “Karpathy风格”独立研究者集体: 一群前OpenAI和Google研究人员,贡献了核心PPO实现和分布式训练基础设施。
- Hugging Face: 提供计算积分,并在其平台上托管模型权重和数据集,使其易于访问。
- Together AI: 贡献了用于最终规模扩展运行的GPU集群,使团队能在不到一周内训练出7B模型。
案例研究:“纯数学”微调
一家名为Synthesis AI的初创公司进行了一项值得注意的应用。他们使用Open-R1-7B基础模型,并在一个包含50万个数学竞赛问题(来自AMC、AIME和IMO)的数据集上进行了独家微调。利用相同的可验证RL流程,他们创建了一个专门