达芬奇大模型计划:揭秘AI黑箱,以科学方法论重塑基础模型预训练范式

arXiv cs.AI March 2026
来源:arXiv cs.AIopen source AI归档:March 2026
一项名为daVinci-LLM的研究计划正将矛头直指AI开发中最隐秘也最关键的阶段——基础预训练。该项目旨在为这项涉及万亿参数的‘炼金术’建立一套严谨、可复现的科学体系,挑战行业对专有黑箱方法的依赖,或将从根本上重塑未来AI巨头的构建方式。

当前顶尖大语言模型的构建,建立在一个充满悖论的基础之上。那个初始的、计算量巨大的预训练阶段——模型在此阶段学习其基础世界知识与推理能力——与其说是工程,不如说更像炼金术。它被领先实验室的商业机密所笼罩,同时因高昂成本令学术界望而却步。这造成了一个危险的知识断层:我们正在微调和提示的那些模型,其核心能力与内在偏见,已在一个人类几乎无法理解的过程中被不可逆转地‘烘焙’定型。

daVinci-LLM的研究方向,正是对这种不透明性发起的一次系统性反击。其公开使命是建立一门‘预训练科学’,将其从一门‘黑魔法’转变为一门有原则、可复现的学科。该计划的核心在于将整个预训练过程——每一次梯度更新、每一条损失曲线、每一次内部表征的转变——都视为科学探究的主要数据,而非像专有实验室那样,仅将最终训练好的模型视为唯一成果。

这一努力的技术雄心在于以前所未有的粒度,对预训练过程进行监测和解剖。其研究支柱包括:在从10亿到可能700亿参数的规模上,系统性地变换Transformer组件(如注意力机制、归一化层等),以区分哪些架构选择真正带来扩展优势;将数据课程视为一等超参数,研究分阶段或动态调整的数据调度逻辑;在给定计算量、数据和参数的条件下,探索不同架构或数据课程如何影响性能扩展规律,即发现‘条件性’扩展定律;以及在训练全程嵌入数千个轻量级‘探针’任务,实时追踪特定能力(如数学推理、多语言理解、事实回忆)的涌现过程。

然而,该计划也揭示了此类科学研究的资源密集性。其提出的实验矩阵显示,即使是系统性的预训练研究,也需要数万GPU日的算力,这恰恰解释了为何学术界长期被排除在外。其价值在于,每一次实验运行产生的都是可推广的知识,而非仅仅一个单一模型。daVinci-LLM的理念与主要行业实验室的方法既存在张力,也从中获得部分灵感。它处于以OpenAI、Anthropic、Google DeepMind为代表的‘封闭、产品驱动’范式,与以Meta的Llama系列、EleutherAI、Hugging Face为代表的‘开放科学’范式的交汇点上。同时,CoreWeave、Together AI等技术赋能者正在降低计算门槛,使得此类项目对联盟或资金充裕的研究机构而言具有财务上的可行性。

技术深度解析

daVinci-LLM的技术雄心在于以前所未有的粒度,对预训练过程进行监测和解剖。与将最终训练模型视为唯一产物的专有实验室不同,daVinci-LLM将整个训练轨迹——每一次梯度更新、每一条损失曲线、每一次内部表征的转变——都视为科学探究的主要数据。

核心研究支柱:
1. 大规模架构消融研究: 系统性地变换Transformer组件(例如,注意力机制如FlashAttention-2、归一化层、激活函数、MoE路由策略),不仅在小模型上进行,更要在从10亿到可能700亿参数的规模上进行。关键在于厘清哪些架构选择能带来扩展优势,哪些仅仅是历史遗留产物。像 `openai/triton`(用于高效GPU内核)和 `Dao-AILab/flash-attention` 这样的代码库在此处是关键的使能技术。
2. 将数据课程视为一等超参数: 超越单一庞大数据集的思路,daVinci-LLM将数据排序视为一种可学习的调度策略。这涉及分阶段训练实验:例如,先使用高质量、精挑细选的数据(如教科书、代码)开始训练,再引入噪声较多的网络数据;或者根据模型熟练度动态调整数据混合比例。像 `allenai/dolma` 数据整理工具包和 `EleutherAI/pile` 基准数据集可能是参考点,但创新之处在于调度逻辑本身。
3. 动态扩展定律验证: 虽然扩展定律(如来自OpenAI和DeepMind的)可以根据计算量、数据和参数预测性能,但daVinci-LLM旨在发现*条件性*扩展定律。这些定律如何随着不同架构或数据课程而变化?这需要运行数百次受控的中等规模训练,以绘制性能图谱。
4. 基于探针的训练诊断: 在训练全程嵌入数千个轻量级‘探针’任务,以实时测量特定能力(数学推理、多语言理解、事实回忆)的涌现情况,从而创建一份能力获取时间线。

| 实验系列 | 规模(参数) | 测试关键变量 | 主要评估指标 | 计算成本(估算GPU日) |
|---|---|---|---|---|
| Arch-Ablate-1 | 1B, 7B | 注意力机制变体(标准、多查询、分组查询) | 在1000亿token后的验证损失 | 5,000 |
| Data-Curriculum-1 | 7B | 分阶段 vs. 混合数据排序 | 在5000亿token后的MMLU和Codex-Eval得分 | 15,000 |
| Scaling-Verify-1 | 125M, 1.3B, 7B, 13B | 固定FLOPs,变化数据/参数比例 | 符合Chinchilla最优定律的程度 | 25,000 |

数据启示: 拟议的实验矩阵揭示了这项事业的资源密集性。即使是系统性的、科学的预训练研究,也需要数万GPU日的算力,这凸显了学术界此前被拒之门外的原因。其价值在于,每一次运行产生的都是可推广的知识,而不仅仅是一个单一模型。

关键参与者与案例分析

daVinci-LLM的理念与主要行业实验室的方法既存在张力,也从中获得部分灵感。

现有主流范式(封闭,产品驱动):
* OpenAI: 不透明、结果导向方法的典型代表。GPT-4的架构、训练数据构成和确切的训练计算量仍未公开。预训练被视为通向产品的、单一且庞大的研发成本。
* Anthropic: 尽管在宪法AI和安全方面发表了更多研究,但Claude模型的核心预训练过程仍是严密保护的秘密。他们的重点在于预训练后对模型行为的引导。
* Google DeepMind: 贡献了基础科学(如Chinchilla扩展定律),但将Gemini的完整训练配方作为专有技术。他们体现了混合模式:发布通用原则,但保留具体实现细节。

新兴的开放科学对照:
* Meta的Llama系列: 一个关键案例。通过发布Llama 2和3等基础模型,Meta为社区提供了高质量、已完成预训练的模型。然而,预训练过程本身并未完全记录或可复现。daVinci-LLM旨在更进一步,开源*过程*知识。
* EleutherAI 与 Hugging Face: 像EleutherAI(GPT-NeoX、Pythia的创造者)这样的社区和Hugging Face这样的平台,一直倡导开放模型。`EleutherAI/pythia` 套件是一个里程碑,它提供了一系列在相同数据上训练、且每一步都有检查点的模型家族。这是最接近daVinci-LLM目标的前驱工作,但规模较小,且对架构和课程变量的关注较少。
* 技术赋能者:CoreWeave(专业云GPU基础设施)和 Together AI(分布式训练平台)这样的公司正在降低计算门槛,使得像daVinci-LLM这样的项目对于联盟或资金充裕的研究机构而言,在财务上变得可行。

| 实体 | 预训练理念 | 透明度/开放程度 | 对daVinci-LLM的启示 |
|---|---|---|---|
| OpenAI | 封闭黑箱,产品至上 | 极低 | 定义了需要挑战的不透明范式 |
| Meta (Llama) | 开放成果,过程保密 | 中等(开放权重,有限过程细节) | 展示了开放基础模型的价值,但过程知识仍缺失 |
| EleutherAI (Pythia) | 开放科学,过程可复现 | 高(开放代码、数据、检查点) | 提供了最接近的方法论蓝图,但需扩展到更大规模和更多变量 |
| daVinci-LLM (目标) | 开放科学,聚焦过程 | 目标:极高(全面开放过程数据与方法) | 旨在成为预训练过程的权威科学参考 |

更多来自 arXiv cs.AI

视觉推理的盲点:AI必须先学会“看”,才能“思考”多年来,多模态AI社区一直默认一个假设:要让模型同时正确“看”和“推理”,就必须堆叠更多外部工具、智能体流水线和复杂架构。一项新研究打破了这一共识。它揭示了视觉语言模型(VLM)的核心瓶颈并非推理能力不足,而是感知层的系统性噪声。当前只奖励SPIN的DAG契约:用结构纪律驯服LLM混乱,为工业智能体可靠性保驾护航LLM规划器在工业环境中的根本问题从来不是缺乏创造力——而是缺乏结构纪律。像GPT-4o和Claude 3.5这样的模型可以生成看似合理的步骤序列,但这些序列经常包含循环依赖、冗余节点或在现实世界中无法执行的分支。结果是浪费API调用、系统AI法律推理的逻辑之殇:为何信任依旧遥不可及法律界对AI的拥抱始终暗藏不安:当模型自信地给出错误的法律解释时,谁来承担后果?来自计算机科学家和法律学者联合团队的新研究,发现了一个比众所周知的“幻觉”问题更为根本的缺陷——大型语言模型(LLM)在应用于法律推理时,系统性缺乏“逻辑保真度查看来源专题页arXiv cs.AI 已收录 326 篇文章

相关专题

open source AI182 篇相关文章

时间归档

March 20262347 篇已发布文章

延伸阅读

GPT-OSS 之谜:未公开工具如何引发AI的‘隐性知识’危机对GPT-OSS-20b的批判性审视揭示了高级AI智能体发展的根本悖论。该模型虽展现出复杂的工具调用能力,但其评估却建立在未公开的工具与框架之上,形成了‘黑盒中的黑盒’。这种做法威胁科学可复现性,并暗示着行业正转向一种由专有工具生态而非单一自组织临界性:受物理学启发的突破,解锁LLM真正推理能力人工智能研究正经历一场根本性的范式转移,其焦点已超越对参数与数据的暴力堆砌。一项受复杂系统物理学启发的突破性研究表明,将大语言模型训练至“自组织临界”状态——一种类似于沙堆濒临崩塌的微妙平衡——能够解锁真正涌现的演绎推理能力。AI车库创业神话:在基础模型时代是否已然终结?两位创始人、一个绝妙点子、极简资源——硅谷经典的车库创业传奇,在万亿参数模型时代正遭遇生存危机。开源工具虽降低了软件门槛,但现代AI开发所需的巨额资本已催生新范式,对多数人而言,车库的大门或许已永久关闭。视觉推理的盲点:AI必须先学会“看”,才能“思考”一项新研究揭示了视觉语言模型的根本缺陷:它们并未被训练去准确“看见”。当前训练只奖励最终答案,鼓励模型进行统计猜测而非真正的视觉理解。研究者提出直接奖励感知准确性,有望在复杂智能体工作流中大幅削减计算成本。

常见问题

这次模型发布“daVinci-LLM Demystifies AI's Black Box: The Scientific Quest to Master Foundation Model Pretraining”的核心内容是什么?

The creation of state-of-the-art large language models (LLMs) rests upon a paradoxical foundation. The initial, massively compute-intensive pretraining phase—where a model learns i…

从“daVinci-LLM vs EleutherAI Pythia differences”看,这个模型发布为什么重要?

The technical ambition of daVinci-LLM is to instrument and dissect the pretraining process with unprecedented granularity. Unlike proprietary labs that treat the final trained model as the only artifact, daVinci-LLM trea…

围绕“how much does daVinci-LLM pretraining cost in GPU hours”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。