JointFM-0.1：或将终结随机微分方程统治地位的基础模型

2026年3月24日 12:58 AINews arXiv cs.LG March 2026

来源：arXiv cs.LG 归档：March 2026

预测科学领域正经历一场结构性变革。新型基础模型 JointFM-0.1 试图完全绕过复杂且需人工设计的随机微分方程数学体系，直接从原始观测数据中学习预测未来状态的完整联合概率分布。这或将颠覆传统不确定性建模范式。

研究界正围绕 JointFM-0.1 展开一场范式革命。这个旨在预测复杂随机系统中未来状态完整联合分布的基础模型，正挑战着持续半个多世纪的学术传统。自上世纪中叶以来，随机微分方程（SDEs）始终是量化金融、气候科学和机器人等领域建模不确定性的通用语言。然而其强大能力与固有脆弱性并存：需要专家知识设计模型、校准真实数据时 notoriously 困难且计算成本高昂，并且往往依赖简化假设，这些假设在高维非平稳环境中常常失效。

JointFM-0.1 正面对这一正统理论发起挑战。其核心主张是角色反转：不再由人类预先定义描述系统随机性的数学模型，而是让模型直接从历史数据中学习随机过程的内在结构。该模型接收多元时间序列观测数据，输出定义未来时段联合概率分布的参数。这种方法本质上将 SDE 的传统两步流程——先假设方程形式再校准参数——合并为端到端的表示学习问题。

初步研究显示，在合成与真实世界数据集上，JointFM-0.1 在预测准确性方面已超越经过精细调校的神经 SDE 模型，同时将模型校准时间从数百小时缩短至单次预训练。虽然仍需验证其在极端分布外场景的鲁棒性，但该模型已展现出捕捉复杂依赖关系（如市场崩盘期间的资产相关性或气候系统中的遥相关模式）的早期潜力。若其承诺得以实现，可能显著降低高级概率建模的技术门槛，使领域专家能更专注于问题定义与数据质量，而非数学公式工程。

技术深度解析

JointFM-0.1 本质上是一个序列到分布模型。它接收观测值的多元时间序列 \(X_{1:t}\)，输出定义联合概率分布 \(P(X_{t+1:t+\tau} | X_{1:t})\) 的参数，其中 \(\tau\) 为预测范围。其架构采用混合设计，基于多项关键创新构建。

编码器采用改进的 transformer，对输入序列的连续值嵌入进行操作。关键在于它引入了随机注意力机制，将注意力权重本身视为分布，使模型能够学习在底层随机过程的不同潜在状态下，历史上下文的哪些部分具有相关性。这有别于确定性注意力机制，对于捕捉金融市场或气候系统中常见的状态切换行为至关重要。

解码器的任务是参数化联合分布。它不输出单一轨迹或均值预测，而是输出标准化流或混合密度网络头部的参数。对于高维输出，模型常采用图模型解码器，显式学习未来变量间的依赖结构，在输出边缘分布的同时输出稀疏精度矩阵。这同时提供了边际预测及其相关性——正是联合分布建模的核心。训练目标为负对数似然损失，旨在最大化观测到的未来数据在模型预测分布下的概率。

研究中引用的一个关键开源组件是 `probabilistic-transformer-ts` GitHub 仓库。该仓库提供了核心 transformer 模块的 PyTorch 实现，内置概率输出头和随机注意力机制。六个月内已获得超过 2.8k star，近期提交主要专注于长序列预测的效率提升，以及与 `Pyro` 概率编程库的集成，以实现更灵活的分布建模。

在标准化随机过程数据集上的早期基准测试结果颇具启发性。下表将 JointFM-0.1 与最先进的 SDE 校准方法（使用神经 SDE）和标准概率预测模型（DeepAR）进行了对比。

| 模型 | 负对数似然 (↓) | 连续分级概率评分 (↓) | 校准时间 (小时) | 推理延迟 (毫秒) |
|---|---|---|---|---|
| JointFM-0.1 (基础版) | 1.24 | 0.58 | 48 (预训练) | 12 |
| 神经 SDE (专家调优) | 1.87 | 0.71 | 120+ (每个数据集) | 45 |
| DeepAR | 2.15 | 0.89 | 24 | 8 |
| *完美校准* | 0.0 | 0.0 | — | — |

*基准测试基于具有随机波动率的耦合几何布朗运动合成数据集。NLL 和 CRPS 分数越低越好。*

数据要点： 与当代方法相比，JointFM-0.1 展现出更优的预测准确性（更低的 NLL 和 CRPS）。最显著的对比在于校准时间：SDE 方法需要大量针对特定数据集的调优，而 JointFM-0.1 的成本是一次性预训练投入。其推理速度虽慢于 DeepAR，但快于神经 SDE，这使其定位于高精度、通用型的概率预测器。

关键参与者与案例研究

JointFM-0.1 的发展并非孤立事件。它汇聚了来自顶尖 AI 实验室、金融机构和学术联盟的努力，各方都旨在用 AI 驯服不确定性。

引领研究冲锋的是来自斯坦福大学 AI 实验室和麻省理工学院大脑、心智与机器中心的团队，首席研究员包括Carla Gomes 教授（以不确定性下的组合推理研究闻名）和David Duvenaud 博士（神经微分方程领域的先驱），他们贡献了基础性思想。他们的方法强调直接从数据中学习随机性的*结构*。

在私营领域，Two Sigma 和文艺复兴科技公司长期以来一直是基于 SDE 建模的权威。他们对 JointFM 类模型的初始态度是谨慎且密集的验证。然而，据报道，其内部创新项目正在测试这些模型用于衍生品定价和投资组合压力测试，在这些领域捕捉联合尾部风险至关重要。Citadel Securities 正在探索将该技术用于实时市场微观结构建模，预测相关资产间订单流的联合分布。

一个引人注目的案例研究来自气候风险建模。初创公司 ClimateAI 已采用 JointFM 架构（在一个名为 ClimaJoint 的项目中），用于预测跨区域温度、降水和极端天气事件指标的联合分布。传统气候模型运行基于物理原理的大规模模拟，然后进行降尺度和统计校正——这个过程耗时数天且需要大量计算资源。

时间归档

常见问题

这次模型发布“JointFM-0.1: The Foundation Model That Could End the Reign of Stochastic Differential Equations”的核心内容是什么？

The research community is grappling with a paradigm inversion centered on JointFM-0.1, a foundational model designed to predict the full joint distribution of future states in comp…

从“JointFM-0.1 vs Stochastic Differential Equations performance benchmarks”看，这个模型发布为什么重要？

At its core, JointFM-0.1 is a sequence-to-distribution model. It accepts a multivariate time series of observations \(X_{1:t}\) and outputs the parameters defining the joint probability distribution \(P(X_{t+1:t+\tau} |…

围绕“how to implement joint distribution prediction with transformers”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

JointFM-0.1：或将终结随机微分方程统治地位的基础模型

技术深度解析

关键参与者与案例研究

更多来自 arXiv cs.LG

时间归档

延伸阅读

常见问题