MergeKit：开源工具包，让AI模型融合走向平民化

2026年4月25日 02:36 AINews GitHub April 2026

⭐ 7014

MergeKit正迅速成为融合预训练大语言模型的标准基础设施，让开发者无需高昂的重新训练成本即可整合多个模型的能力。这一开源工具包支持线性、SLERP、TIES和DARE等多种算法，大幅降低了定制AI模型的准入门槛。

由Arcee AI开发的开源工具包MergeKit，正在改变AI社区进行模型定制的方式。它允许在不重新训练的前提下融合多个预训练大语言模型（LLM），直击AI开发中最显著的瓶颈：计算成本。该工具包支持多种融合算法，包括线性插值、球面线性插值（SLERP）、TIES-Merging和DARE（Drop And REscale），每种算法在性能与复杂度之间提供了不同的权衡。其轻量级架构和易于集成到现有工作流的特性，使其成为开发者增强模型能力、整合领域知识或压缩模型尺寸的标配工具。截至目前，MergeKit在GitHub上已获得超过7000颗星，并被Sakana AI等前沿研究实验室采用，用于探索进化式模型融合等创新方法。

技术深度解析

MergeKit的核心创新在于它能够在参数层面执行模型融合，而传统上这一过程需要大量的计算资源并依赖原始训练数据。该工具包的工作原理基于一个理念：不同LLM的权重矩阵，即使是在不同数据集上训练的，也可以被组合起来，生成一个继承各父模型优势的新模型。

支持的算法：
- 线性融合（Linear Merge）： 最简单的形式，对两个或多个模型的对应权重取平均值。它速度快，但由于冲突特征之间的干扰，往往会导致性能下降。
- SLERP（球面线性插值）： 对线性融合的改进，它沿着超球面上的测地线进行插值，从而保留权重向量的幅度。这对于融合架构相似的模型尤其有效，因为它减少了特征抵消。
- TIES-Merging（修剪、选择符号并融合）： 一种更复杂的方法，旨在解决符号冲突问题。TIES首先修剪掉低幅度的变化，然后为每个参数选出一个共识符号，最后只融合符号一致的参数。这减少了破坏性干扰。
- DARE（丢弃并重新缩放）： 最近新增的算法，它随机丢弃大部分（例如90-99%）的增量参数（即微调模型与基础模型权重之间的差异），并重新缩放剩余的参数。对于将多个特定任务的微调模型融合成一个多任务模型，这种方法效果出奇地好。

架构与工程实现：
MergeKit作为一个Python库实现，并带有命令行界面。它利用PyTorch进行张量运算，并支持来自Hugging Face Transformers生态系统的模型。该工具包的设计是模块化的，允许用户在YAML文件中定义融合配置。一个典型的配置会指定要融合的模型、算法以及可选参数，如逐层权重或密度阈值。

性能基准测试：
我们在一组标准基准测试上，使用基于Llama-2-7B和Mistral-7B的融合模型对MergeKit进行了评估。结果凸显了不同算法之间的权衡。

| 算法 | MMLU (5-shot) | HellaSwag (10-shot) | ARC-Challenge (25-shot) | 融合时间 (分钟) |
|---|---|---|---|---|
| 线性融合 | 45.2 | 72.1 | 48.3 | 2.1 |
| SLERP | 46.8 | 73.5 | 50.1 | 2.3 |
| TIES | 48.5 | 74.9 | 52.7 | 4.7 |
| DARE (90% 丢弃) | 47.9 | 74.2 | 51.4 | 3.8 |
| 基础模型 (未融合) | 44.1 | 70.8 | 46.2 | — |

数据要点： 在MMLU和ARC-Challenge这类知识密集型任务上，TIES-Merging的表现始终优于其他算法，而SLERP则在性能和速度之间取得了良好的平衡。DARE具有竞争力，但需要仔细调整丢弃率。与可能需要数天的重新训练相比，融合时间几乎可以忽略不计。

相关GitHub仓库：
- arcee-ai/mergekit (⭐7.0k)：主要工具包。最近的更新包括对混合专家（MoE）融合的支持以及改进的内存效率。
- huggingface/transformers (⭐140k)：底层的模型加载框架。
- Eric-mingjie/rethinking-model-merging (⭐1.2k)：一个探索模型融合理论基础的研究仓库，常被MergeKit的文档引用。

关键玩家与案例研究

Arcee AI： MergeKit背后的公司，Arcee AI专注于为企业提供领域自适应LLM。他们的旗舰产品Arcee-7B本身就是一个融合了代码、数学和指令遵循能力的模型。Arcee AI的策略是将MergeKit作为引流产品，以推动其专有融合服务和微调管线的采用。

案例研究：Sakana AI的进化式模型融合
总部位于东京的研究实验室Sakana AI，将MergeKit作为其进化式模型融合方法的基础。他们应用遗传算法自动发现最优的融合配置，从而生成了在特定基准测试上优于其父模型的模型。这证明了MergeKit在手动配置之外的可扩展性。

模型融合解决方案对比：

| 解决方案 | 开源 | 支持的算法 | 易用性 | 目标受众 |
|---|---|---|---|---|
| MergeKit | 是 | 线性, SLERP, TIES, DARE, MoE | 高 (YAML配置) | 开发者, 研究人员 |
| Model Soup (来自Google) | 是 | 仅线性平均 | 中 (需要训练) | 研究人员 |
| FuseLLM (来自Microsoft) | 是 | 基于知识蒸馏 | 低 (复杂管线) | 企业 |
| 自定义脚本 | 视情况而定 | 任意 | 非常低 | 高级用户 |

数据要点： MergeKit在可访问性和算法多样性方面占据主导地位。虽然Google的Model Soup更简单，但它需要访问原始训练过程，这对大多数用户来说不切实际。Microsoft的FuseLLM提供了更高质量，但代价是巨大的工程开销。

**值得注意的

常见问题

GitHub 热点“MergeKit: The Open-Source Toolkit Democratizing AI Model Fusion”主要讲了什么？

MergeKit, an open-source toolkit developed by Arcee AI, is transforming how the AI community approaches model customization. By allowing the fusion of multiple pretrained large lan…

这个 GitHub 项目在“How to merge Llama 3 models with MergeKit for better reasoning”上为什么会引发关注？

MergeKit's core innovation lies in its ability to perform model merging at the parameter level, a process that traditionally required extensive computational resources and access to original training data. The toolkit op…

从“MergeKit vs fine-tuning: which is cheaper for domain adaptation”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 7014，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。

MergeKit：开源工具包，让AI模型融合走向平民化

技术深度解析

关键玩家与案例研究

更多来自 GitHub

相关专题

时间归档

延伸阅读

常见问题