AI2发布Dolma工具包:揭开大语言模型训练数据的黑箱

GitHub March 2026
⭐ 1460
来源:GitHub归档:March 2026
艾伦人工智能研究所(AI2)近日推出革命性开源工具包Dolma及其配套的3万亿token数据集。这套方案不仅提供了构建大语言模型预训练数据的完整可审计流水线,更以极致透明性直击AI模型开发中最不透明的核心环节,为领域内的可复现性与信任树立了新标杆。

Dolma的出现标志着AI社区处理现代人工智能最关键却最不透明组件——训练数据——的方式发生了范式转变。该工具包专为支持AI2自家开源大模型OLMo而开发,但它远不止是一个数据集:这是一套包含数据获取、过滤、去重与检测的完整可审计流水线,其核心创新在于极致的透明度。当绝大多数机构将训练数据视为 proprietary 的皇冠明珠时,AI2却开源了完整“配方”——包括精心整理的3万亿token数据集(这是训练OLMo所用数据的子集),以及从URL过滤到毒性评分等所有创建工具。

此举直接回应了业界对数据来源、版权模糊性以及尖端AI模型不可复现性日益增长的担忧。Dolma通过提供可验证的数据处理路径,使研究人员能够追溯模型能力的根源,评估潜在偏见,并在此基础上进行构建。它本质上是一份针对大语言模型训练中“数据工程”的开放式蓝图,将原本封闭的专有流程转变为可检验、可辩论的公共科学实践。

工具包采用模块化架构,通过Makefile和Docker编排实现确定性输出。其流水线处理来自Common Crawl、C4和The Stack等源的原始数据,关键阶段包括:来源获取与摄取、多层过滤(质量、内容、来源)、文档级与子文档级去重,以及按预设比例混合数据并进行token化。尤为重要的是Dolma引入的“数据卡片”机制——为每个数据切片提供详细文档,记录来源、过滤统计和潜在限制,这些元数据对于审计至关重要。

从技术指标看,数据处理流水线展现出残酷的效率:从海量原始网络文本中,通常有超过70%的内容通过过滤和去重被剔除,最终形成“高质量”语料库。相对较低的毒性内容标记率(1-3%)则暗示过滤标准较为宽松,或表明经过语言过滤后的数据中明显有害内容已大幅减少。

在生态定位上,Dolma直面的是以OpenAI、Anthropic为代表的将训练数据视为核心知识产权的封闭范式,以及Meta虽开源模型权重却未公开数据流水线的现状。它继承了EleutherAI《The Pile》数据集的开源精神,但将规模从千亿级提升至万亿级,并提供了完整的工具链而非仅输出结果。对于Hugging Face等提供的通用数据处理库,Dolma则展现出为LLM预训练专门优化的端到端解决方案的独特价值。

这项由AI2高级研究经理Jesse Dodge主导的工作,体现了Stuart Russell、Yann LeCun等学者长期倡导的透明可复现AI系统理念。它不仅是技术工具,更是推动AI研究向更开放、更科学方向发展的哲学宣言。

技术深度解析

Dolma的架构专为大规模、可复现的数据处理而设计。它构建为一套通过Makefile和Docker编排的模块化工具集合,强调确定性输出。流水线处理来自Common Crawl、C4和The Stack等源的原始数据,经历数个关键阶段,每个阶段均实现为独立可配置的组件。

核心流水线阶段:
1. 来源获取与摄取: 从预定义源拉取数据。一个关键特性是包含`olmo-data` GitHub仓库,其中存有用于训练OLMo的实际token序列,允许字节级复现。
2. 过滤: 采用多层过滤系统。包括:
* 质量过滤: 使用启发式方法,如语言识别(通过FastText)、停用词比例和符号-单词比例,以移除低质量文本。
* 内容过滤: 实施分类器以标记并移除有毒、色情或个人身份信息(PII)。
* 来源过滤: 对来自已知问题域的URL应用阻止列表。
3. 去重: 在文档和子文档级别执行精确及模糊去重。此过程计算密集,但对于防止模型记忆和偏见放大至关重要。
4. 混合与Token化: 根据预设配方(例如67%网络数据,33%代码)混合不同来源的数据,并使用OLMo的分词器进行token化。

一项关键的技术贡献是Dolma的“数据卡片”——为每个数据切片提供的详细文档,记录来源、过滤统计和潜在限制。这些元数据对于可审计性与数据本身同等重要。

性能与规模: 处理数万亿token需要分布式计算。Dolma设计为在集群上运行,性能极大依赖于I/O和所选过滤标准。发布的3万亿token数据集是完整OLMo训练语料库(本身超过20万亿token)的一个精选子集。

| 处理阶段 | 关键指标 | 工具/方法 | 对最终语料库的影响 |
|---|---|---|---|
| 初始Common Crawl WET获取 | ~1200亿文档 | `cc-fetch` | 原始、未过滤的输入 |
| 语言过滤(英语) | 保留约25-30% | FastText `lid.176.bin` | 定义主要语言领域 |
| 质量过滤 | 移除约50%行 | 启发式规则(停用词、符号计数) | 提高平均文本连贯性 |
| 去重(模糊) | 移除约5-10%文档 | MinHash/LSH | 减少冗余,缓解记忆 |
| 毒性过滤 | 标记约1-3%内容 | Perspective API风格分类器 | 试图限制有害输出生成 |

数据启示: 数据揭示了整理流水线的惊人效率:从浩瀚的原始网络文本海洋中,通常有超过70%的内容通过过滤和去重被丢弃,才能得到“高质量”语料库。相对较低的毒性标记率(1-3%)表明要么过滤器不够激进,要么在经过语言过滤的数据中,明显有毒的内容已经很少。

关键参与者与案例研究

AI2的Dolma进入了一个数据实践竞争激烈且高度保密的领域。其主要“竞争对手”并非类似的开源工具包,而是领先AI实验室的专有、未文档化的流水线。

* OpenAI / Anthropic: 将训练数据构成和过滤视为核心知识产权。其模型优势常归因于未公开的“数据混合配方”和复杂的后训练技术。Dolma通过证明完全公开的流水线也能产出尖端模型(OLMo),对此构成了挑战。
* Meta (Llama): 已通过发布模型权重走向开放,但其用于Llama 2和3的数据流水线仅在论文中粗略描述,并未发布。`llama-dataset`或类似的内部工具并未公开。
* EleutherAI (The Pile): 此前设定了开放训练数据集的标准。The Pile是一个多样化的825GB数据集。Dolma继承了这一传统,但以更大规模(万亿级 vs. 十亿级token)运作,并且提供了工具而不仅仅是输出结果。
* Hugging Face: 提供如`datasets`和`text-dedup`等数据处理库,但这些都是通用工具。Dolma则是一个有明确设计理念、专门为LLM预训练优化的端到端流水线。
* 研究者影响: 像Jesse Dodge(AI2高级研究经理,Dolma/OLMo项目负责人)这样的学者认为,没有开放数据,AI的科学进步就会受阻。Dolma体现了Stuart Russell和Yann LeCun长期倡导的研究哲学,他们一直主张构建更透明、更可复现的AI系统。

| 实体 | 数据理念 | 发布的成果 | 可审计性 | 主要用例 |
|---|---|---|---|---|
| AI2 (Dolma) | 极致透明 | 完整流水线 + 3万亿token数据集 | 极高(代码、数据、文档全开源) | 研究、可复现的LLM预训练 |
| OpenAI / Anthropic | 严格保密 | 无(或仅限论文描述) | 极低 | 专有模型开发 |
| Meta (Llama) | 部分开放 | 模型权重,有限的数据描述 | 中等(仅论文层面) | 生态构建与研究 |
| EleutherAI (The Pile) | 开放数据 | 最终数据集(825GB) | 中等(有文档,无工具链) | 研究、模型训练 |
| Hugging Face | 开放工具 | 通用数据处理库 | 高(工具开源) | 广泛的NLP数据处理 |

更多来自 GitHub

OpenAI Gym 如何成为强化学习研究的标准竞技场2016年问世的 OpenAI Gym,精准地击中了强化学习领域的一个关键瓶颈:缺乏用于开发和比较算法的标准化环境。在其发布之前,研究人员耗费大量时间构建定制模拟器,导致结果几乎无法直接比较。Gym 的精妙之处在于其极简设计——一个简单通用LLM Wiki 的持久知识范式挑战传统 RAG 架构由 Nash Su 开发的开源项目 LLM Wiki 迅速走红,已在 GitHub 上获得超过 1,800 颗星,这标志着开发者对其新颖文档智能处理方式的浓厚兴趣。该应用定位为一款跨平台工具,能自动将用户的 PDF、Markdown 文件、LLamaSharp 架起 .NET 与本地 AI 的桥梁,解锁企业级大模型部署新范式开源项目 LLamaSharp 标志着 .NET 生态系统中 AI 集成的重大转折点。其核心是为著名的 llama.cpp 库精心打造的 C#/.NET 绑定。llama.cpp 是一个 C++ 实现,专为在消费级硬件上运行 LLaMA 系查看来源专题页GitHub 已收录 850 篇文章

时间归档

March 20262347 篇已发布文章

延伸阅读

AI2推出OLMo项目:全栈开源革命挑战科技巨头的LLM霸权艾伦人工智能研究所发布OLMo,这是一项颠覆行业惯例的透明度实验——不仅公开模型权重,更开源训练数据、代码与完整日志。此举直指当前大语言模型领域的不透明操作,为可复现研究树立了新标杆。DeepSeek-V2以MLA架构重塑MoE效率,以极低成本挑战GPT-4深度求索公司发布革命性MoE模型DeepSeek-V2,通过创新的多头潜在注意力架构与细粒度专家分割技术,在实现GPT-4级别性能的同时,将推理成本骤降70%。这一突破可能重新定义大规模AI部署的经济学规则。AllenAct如何通过模块化框架设计,让具身AI研究走向大众化艾伦人工智能研究所正式发布AllenAct——一个旨在加速具身人工智能研究的综合性开源框架。这套模块化系统为在仿真环境中训练和评估智能体提供了标准化工具,有望显著降低这一高门槛复杂研究领域的入门壁垒。OpenAI Gym 如何成为强化学习研究的标准竞技场OpenAI Gym 的诞生,远不止于提供一套工具包,它从根本上为强化学习研究建立了基础协议。通过提供标准化的环境集与简洁的 API,它将一个各自为政的领域,转变为一个以基准测试驱动的统一学科,极大地加速了从学术论文到现实应用的进程。

常见问题

GitHub 热点“AI2's Dolma Toolkit Breaks Open the Black Box of LLM Training Data”主要讲了什么?

Dolma represents a paradigm shift in how the AI community approaches the most critical yet opaque component of modern AI: training data. Developed to support AI2's own open-source…

这个 GitHub 项目在“How to run Dolma data pipeline on AWS”上为什么会引发关注?

Dolma's architecture is engineered for massive-scale, reproducible data processing. It is built as a collection of modular tools orchestrated via a Makefile and Docker, emphasizing deterministic outputs. The pipeline pro…

从“Dolma vs The Pile dataset comparison for training”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 1460,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。