达芬奇大模型计划：揭秘AI黑箱，以科学方法论重塑基础模型预训练范式

当前顶尖大语言模型的构建，建立在一个充满悖论的基础之上。那个初始的、计算量巨大的预训练阶段——模型在此阶段学习其基础世界知识与推理能力——与其说是工程，不如说更像炼金术。它被领先实验室的商业机密所笼罩，同时因高昂成本令学术界望而却步。这造成了一个危险的知识断层：我们正在微调和提示的那些模型，其核心能力与内在偏见，已在一个人类几乎无法理解的过程中被不可逆转地‘烘焙’定型。

daVinci-LLM的研究方向，正是对这种不透明性发起的一次系统性反击。其公开使命是建立一门‘预训练科学’，将其从一门‘黑魔法’转变为一门有原则、可复现的学科。该计划的核心在于将整个预训练过程——每一次梯度更新、每一条损失曲线、每一次内部表征的转变——都视为科学探究的主要数据，而非像专有实验室那样，仅将最终训练好的模型视为唯一成果。

这一努力的技术雄心在于以前所未有的粒度，对预训练过程进行监测和解剖。其研究支柱包括：在从10亿到可能700亿参数的规模上，系统性地变换Transformer组件（如注意力机制、归一化层等），以区分哪些架构选择真正带来扩展优势；将数据课程视为一等超参数，研究分阶段或动态调整的数据调度逻辑；在给定计算量、数据和参数的条件下，探索不同架构或数据课程如何影响性能扩展规律，即发现‘条件性’扩展定律；以及在训练全程嵌入数千个轻量级‘探针’任务，实时追踪特定能力（如数学推理、多语言理解、事实回忆）的涌现过程。

然而，该计划也揭示了此类科学研究的资源密集性。其提出的实验矩阵显示，即使是系统性的预训练研究，也需要数万GPU日的算力，这恰恰解释了为何学术界长期被排除在外。其价值在于，每一次实验运行产生的都是可推广的知识，而非仅仅一个单一模型。daVinci-LLM的理念与主要行业实验室的方法既存在张力，也从中获得部分灵感。它处于以OpenAI、Anthropic、Google DeepMind为代表的‘封闭、产品驱动’范式，与以Meta的Llama系列、EleutherAI、Hugging Face为代表的‘开放科学’范式的交汇点上。同时，CoreWeave、Together AI等技术赋能者正在降低计算门槛，使得此类项目对联盟或资金充裕的研究机构而言具有财务上的可行性。

技术深度解析

daVinci-LLM的技术雄心在于以前所未有的粒度，对预训练过程进行监测和解剖。与将最终训练模型视为唯一产物的专有实验室不同，daVinci-LLM将整个训练轨迹——每一次梯度更新、每一条损失曲线、每一次内部表征的转变——都视为科学探究的主要数据。

核心研究支柱：
1. 大规模架构消融研究： 系统性地变换Transformer组件（例如，注意力机制如FlashAttention-2、归一化层、激活函数、MoE路由策略），不仅在小模型上进行，更要在从10亿到可能700亿参数的规模上进行。关键在于厘清哪些架构选择能带来扩展优势，哪些仅仅是历史遗留产物。像 `openai/triton`（用于高效GPU内核）和 `Dao-AILab/flash-attention` 这样的代码库在此处是关键的使能技术。
2. 将数据课程视为一等超参数： 超越单一庞大数据集的思路，daVinci-LLM将数据排序视为一种可学习的调度策略。这涉及分阶段训练实验：例如，先使用高质量、精挑细选的数据（如教科书、代码）开始训练，再引入噪声较多的网络数据；或者根据模型熟练度动态调整数据混合比例。像 `allenai/dolma` 数据整理工具包和 `EleutherAI/pile` 基准数据集可能是参考点，但创新之处在于调度逻辑本身。
3. 动态扩展定律验证： 虽然扩展定律（如来自OpenAI和DeepMind的）可以根据计算量、数据和参数预测性能，但daVinci-LLM旨在发现*条件性*扩展定律。这些定律如何随着不同架构或数据课程而变化？这需要运行数百次受控的中等规模训练，以绘制性能图谱。
4. 基于探针的训练诊断： 在训练全程嵌入数千个轻量级‘探针’任务，以实时测量特定能力（数学推理、多语言理解、事实回忆）的涌现情况，从而创建一份能力获取时间线。

| 实验系列 | 规模（参数） | 测试关键变量 | 主要评估指标 | 计算成本（估算GPU日） |
|---|---|---|---|---|
| Arch-Ablate-1 | 1B, 7B | 注意力机制变体（标准、多查询、分组查询） | 在1000亿token后的验证损失 | 5,000 |
| Data-Curriculum-1 | 7B | 分阶段 vs. 混合数据排序 | 在5000亿token后的MMLU和Codex-Eval得分 | 15,000 |
| Scaling-Verify-1 | 125M, 1.3B, 7B, 13B | 固定FLOPs，变化数据/参数比例 | 符合Chinchilla最优定律的程度 | 25,000 |

数据启示： 拟议的实验矩阵揭示了这项事业的资源密集性。即使是系统性的、科学的预训练研究，也需要数万GPU日的算力，这凸显了学术界此前被拒之门外的原因。其价值在于，每一次运行产生的都是可推广的知识，而不仅仅是一个单一模型。

关键参与者与案例分析

daVinci-LLM的理念与主要行业实验室的方法既存在张力，也从中获得部分灵感。

现有主流范式（封闭，产品驱动）：
* OpenAI： 不透明、结果导向方法的典型代表。GPT-4的架构、训练数据构成和确切的训练计算量仍未公开。预训练被视为通向产品的、单一且庞大的研发成本。
* Anthropic： 尽管在宪法AI和安全方面发表了更多研究，但Claude模型的核心预训练过程仍是严密保护的秘密。他们的重点在于预训练后对模型行为的引导。
* Google DeepMind： 贡献了基础科学（如Chinchilla扩展定律），但将Gemini的完整训练配方作为专有技术。他们体现了混合模式：发布通用原则，但保留具体实现细节。

新兴的开放科学对照：
* Meta的Llama系列： 一个关键案例。通过发布Llama 2和3等基础模型，Meta为社区提供了高质量、已完成预训练的模型。然而，预训练过程本身并未完全记录或可复现。daVinci-LLM旨在更进一步，开源*过程*知识。
* EleutherAI 与 Hugging Face： 像EleutherAI（GPT-NeoX、Pythia的创造者）这样的社区和Hugging Face这样的平台，一直倡导开放模型。`EleutherAI/pythia` 套件是一个里程碑，它提供了一系列在相同数据上训练、且每一步都有检查点的模型家族。这是最接近daVinci-LLM目标的前驱工作，但规模较小，且对架构和课程变量的关注较少。
* 技术赋能者： 像 CoreWeave（专业云GPU基础设施）和 Together AI（分布式训练平台）这样的公司正在降低计算门槛，使得像daVinci-LLM这样的项目对于联盟或资金充裕的研究机构而言，在财务上变得可行。

| 实体 | 预训练理念 | 透明度/开放程度 | 对daVinci-LLM的启示 |
|---|---|---|---|
| OpenAI | 封闭黑箱，产品至上 | 极低 | 定义了需要挑战的不透明范式 |
| Meta (Llama) | 开放成果，过程保密 | 中等（开放权重，有限过程细节） | 展示了开放基础模型的价值，但过程知识仍缺失 |
| EleutherAI (Pythia) | 开放科学，过程可复现 | 高（开放代码、数据、检查点） | 提供了最接近的方法论蓝图，但需扩展到更大规模和更多变量 |
| daVinci-LLM (目标) | 开放科学，聚焦过程 | 目标：极高（全面开放过程数据与方法） | 旨在成为预训练过程的权威科学参考 |

时间归档

延伸阅读

常见问题

这次模型发布“daVinci-LLM Demystifies AI's Black Box: The Scientific Quest to Master Foundation Model Pretraining”的核心内容是什么？

The creation of state-of-the-art large language models (LLMs) rests upon a paradoxical foundation. The initial, massively compute-intensive pretraining phase—where a model learns i…

从“daVinci-LLM vs EleutherAI Pythia differences”看，这个模型发布为什么重要？

The technical ambition of daVinci-LLM is to instrument and dissect the pretraining process with unprecedented granularity. Unlike proprietary labs that treat the final trained model as the only artifact, daVinci-LLM trea…

围绕“how much does daVinci-LLM pretraining cost in GPU hours”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。