技术深度解析
CrowdMath代表了与传统AI推理数据集的彻底决裂。要理解其创新之处,首先必须认清现有基准测试的局限性。GSM8K和MATH是静态的:它们抛出一个问题,期待一个最终答案,并根据正确性评分。它们将推理视为一个黑箱。CrowdMath打开了这个黑箱。
该数据集围绕“协作片段”构建。每个片段以一个数学问题开始——通常是一个开放性的猜想或一个复杂的证明——并记录多个智能体之间的多轮对话。这些智能体可以是人类、LLM或混合系统。对话被分割成原子单元:“话语”。每个话语都根据一个分类体系标注了推理类型,包括:
- 提案:一个部分或试探性的论证。
- 批评:识别出一个逻辑漏洞或错误。
- 修复:为修正缺陷而做的修改。
- 整合:将多个部分论证合并成一个连贯的整体。
- 元评论:关于策略或方法的讨论。
- 最终方案:完整且被接受的证明。
这个分类体系并非随意设定。它源自认知科学对专业数学家如何协作的研究。该数据集包含超过50,000个片段,平均每个片段有12条话语,总计约600,000条带标注的话语。问题涵盖代数、数论、拓扑学和组合数学,难度从本科水平到研究前沿不等。
从工程角度来看,CrowdMath为LLM训练带来了独特挑战。标准的基于下一个词预测的监督微调是不够的。模型必须学会以整个对话历史为条件,理解论证的哪些部分被接受或质疑,并决定何时提出、批评或整合。这需要一种当前Transformer架构难以实现的“状态追踪”能力。处于这项研究前沿的科研人员正在尝试“情景记忆”模块——一种可以在多轮对话中读写的外部记忆存储——以及“多智能体强化学习”,其中模型的奖励不是基于个人正确性,而是基于其对团队整体进展的贡献。
一个与CrowdMath理念相符的著名开源项目是Lean Copilot仓库(目前在GitHub上有3,200颗星)。Lean Copilot将LLM与Lean定理证明器集成,允许模型在协作环境中建议证明步骤。虽然Lean Copilot专注于形式化验证,但CrowdMath将其扩展到了非正式的、自然语言的推理。另一个相关项目是MathCoder(5,800颗星),它训练模型生成可执行代码以解决数学问题。然而,MathCoder仍然在单智能体范式下运行。CrowdMath的多智能体、过程导向方法则更进一步。
数据表:数学推理数据集对比
| 数据集 | 格式 | 协作性 | 过程标注 | 每个问题的平均话语数 | 开放性问题 |
|---|---|---|---|---|---|
| GSM8K | 单轮问答 | 否 | 否 | 1 | 否 |
| MATH | 单轮问答 | 否 | 否 | 1 | 否 |
| ProofNet | 单轮证明 | 否 | 否 | 1 | 部分 |
| MetaMathQA | 单轮问答 | 否 | 否 | 1 | 否 |
| CrowdMath | 多轮对话 | 是 | 是 | 12 | 是 |
数据要点: CrowdMath是唯一一个捕捉多轮协作推理并带有细粒度过程标注的数据集。这使得它特别适合训练能够参与实时、辩证式问题解决的模型——这是所有现有基准测试所不具备的能力。
关键参与者与案例研究
CrowdMath的开发是学术机构与行业实验室合作的结果。主导研究团队来自剑桥大学计算数学实验室,由Elena Vasquez博士领导,她之前在“神经引导的交互式定理证明”方面的工作(发表于NeurIPS 2023)奠定了理论基础。该数据集是与OpenMath Collective合作整理的,这是一个由数学家和AI研究人员组成的联盟,贡献者包括来自DeepMind、OpenAI和Anthropic的研究人员。
一个关键案例研究是将CrowdMath集成到Anthropic的Claude for Research产品中。Anthropic一直在测试一个基于CrowdMath片段微调的Claude版本。私下分享给AINews的早期结果显示,与基础版Claude 3.5 Sonnet模型相比,该模型在多步证明中检测逻辑错误的能力提升了40%。更重要的是,微调后的模型展现出了在对话中“轮流发言”的能力——等待人类合作者完成部分论证后再提出批评或扩展。这是一种大多数LLM所缺乏的非平凡社交技能。
另一个值得注意的参与者是MathGPT,一家由前Google Brain研究员创立的初创公司。MathGPT h