谷歌TimesFM:时间序列预测迎来“基础模型”范式革命

GitHub April 2026
⭐ 17478📈 +17478
来源:GitHub归档:April 2026
谷歌研究发布时间序列预测基础模型TimesFM,该模型基于千亿级真实世界时间点预训练,展现出卓越的零样本与小样本预测能力。这标志着针对结构化时序数据的“基础模型”应用迈入关键节点,或将彻底改变为每个数据集定制训练模型的传统范式。

谷歌研究推出的TimesFM,是对时间序列预测方法论的一次根本性重构。这是一个仅包含2亿参数的纯解码器Transformer模型,其核心创新在于将预测任务构建为一种“基于片段”的下一个令牌预测问题:模型将时间序列的连续片段(如32或64个时间步长)视作令牌进行处理。这种设计使其能够从海量、多样的公共时序数据语料库中学习通用的时间模式与关联,而无需像传统方法那样为每个特定数据集进行大量训练。TimesFM的预训练数据规模惊人,涵盖了约1000亿个时间点,数据源包括谷歌趋势、维基百科页面浏览量及公共传感器数据等。其目标是仅凭少量甚至无需微调,即可为未见过的序列生成准确预测。模型的发布,意味着将自然语言处理等领域成功的基础模型理念,首次系统性地应用于结构化时序数据领域,有望显著降低高性能预测的门槛,并催生更通用的时序智能层。

技术深度解析

TimesFM本质上是一个纯解码器的Transformer模型,这一架构选择与GPT等模型在自然语言领域的成功一脉相承。然而,其关键创新在于对时间序列数据的令牌化处理方式。模型不使用单词或子词,而是采用片段——即时间序列中非重叠的连续片段。一个典型片段可能代表32或64个时间步长。这种基于片段的表征至关重要,它使模型能够捕捉每个片段内部的局部模式和趋势,并学习这些片段如何按顺序关联,以预测未来的片段。

该模型在一个由约1000亿个时间点组成的庞大数据集上进行了预训练,这些数据聚合自多样化的公共来源。这种规模和多样性是其“秘密武器”,迫使模型学习涵盖网络流量到电力需求等多个领域的大量时间动态模式——包括季节性、趋势、不规则周期和噪声模式。其训练目标是直接的下一个片段预测:给定一个由过去片段组成的上下文窗口,预测随后的片段。

一个关键的工程细节是其对可变历史上下文长度的处理。现实世界的预测问题提供的历史数据量各不相同。TimesFM在预训练阶段就采用了可变上下文长度进行训练,这使其在推理时能够稳健应对这种不一致性。进行预测时,它接收一个历史序列,将其分割成片段,然后以自回归的方式生成未来的片段,从而形成预测范围。

与既有方法的基准测试揭示了其零样本的强大能力。在标准数据集Monash时间序列存储库上,TimesFM在真正的零样本设置中进行了评估:模型在训练期间从未见过这些数据集中的任何序列。

| 模型类型 | 示例模型 | 平均sMAPE(越低越好) | 每个数据集所需训练 |
|---|---|---|---|
| 基础模型(零样本) | TimesFM | ~12.5 | 无 |
| 统计模型 | ARIMA | ~15.1 | 是(参数估计) |
| 深度学习(全局) | N-BEATS | ~13.8 | 是(在目标数据上完整训练) |
| 深度学习(局部) | LSTM | ~16.3 | 是(从头开始训练) |

*数据要点*:TimesFM的零样本性能与需要在目标数据上进行专门训练的模型相比具有竞争力,且常常更优。这清晰地展示了其泛化能力的飞跃,尽管在特定数据集上经过大量微调的专用模型仍可能获得更低的误差。

模型的代码和一个检查点已经发布,尽管并非完全开源的训练框架。相关的GitHub仓库(`google-research/timesfm`)提供了推理代码、模型权重和示例,允许研究人员和从业者直接测试模型。GitHub星标的快速积累反映了社区对于验证和基于此方法进行构建的浓厚兴趣。

关键参与者与案例分析

TimesFM的出现将谷歌研究置于一个初生但快速演进的竞争领域的前沿。这场竞赛在拥有海量数据资源的大型科技公司与专业的AI初创公司之间展开。

谷歌研究拥有独特优势:内部可获取行星尺度的时序数据(搜索、YouTube、广告、云监控)用于未来潜在的训练,并且拥有训练此类模型的计算基础设施。领导这项工作的Rajat Sen及其团队等研究人员,一直在发表关于可扩展时间序列方法的成果。他们的策略似乎是建立一个时序智能的基础层,可以整合到谷歌从云AI服务到内部运营预测的各个产品中。

亚马逊云科技及其Amazon Forecast服务代表了现有的基于云的方法。它提供一套算法(包括DeepAR+和Prophet),客户在自己的数据上训练这些算法。AWS的模式以服务为中心而非基础模型;它通过对定制模型的训练和托管来盈利。

专业的AI初创公司,如Nixtla(开源库`statsforecast`和`neuralforecast`的幕后公司)和Grok(前身为X.AI的运营团队),正通过开源和专用模型推动边界。Nixtla的`TimeGPT`(注意不要与TimesFM混淆)是最早宣称达到时间序列“基础模型”地位的模型之一,尽管其架构和训练数据透明度较低。他们的市场策略是通过稳健、易用的库和咨询服务。

学术界仍然至关重要,像PyTorch Forecasting这样的框架,以及对时序融合TransformerInformer等架构的研究,提供了基础构建模块。这些模型通常比当前的基础模型更具可解释性,并能更好地处理复杂的协变量。

| 实体 | 主要产品 | 核心优势 | 商业模式 |
|---|---|---|---|
| 谷歌 (TimesFM) | 预训练基础模型 | 零样本泛化能力、海量预训练数据、谷歌生态整合潜力 | 可能通过云AI服务、产品增强、研究领导力变现 |
| AWS (Amazon Forecast) | 托管预测服务 | 易用性、与企业AWS栈集成、成熟的算法套件 | 基于使用的服务收费(训练/托管/推理) |
| Nixtla / Grok 等初创公司 | 开源库与专用模型 | 灵活性、特定领域专业性、敏捷开发 | 开源核心库+高级功能/支持/咨询服务 |
| 学术界 (TFT, Informer等) | 研究框架与架构 | 创新、可解释性、处理复杂协变量的能力 | 研究资助、知识传播、为工业界提供人才与理念 |

更多来自 GitHub

数字化的同事纪念碑:GitHub titanwings 项目如何重构职场人际关系由开发者 titanwings 创建的开源项目‘colleague-skill’在 GitHub 上获得了非凡的关注度,已收获超过 14,000 颗星,且每日增长超过 800 颗。该项目自称为‘数字生命 1.0’,提出了一个将同事的专业技能OpenAI技能目录发布:揭秘AI编程助手的未来范式OpenAI Codex技能目录是一个公开的GitHub代码库,它作为Codex模型高效提示工程的综合指南而存在——Codex正是GitHub Copilot等工具背后的核心引擎。这并非独立产品,而是一个教育框架与最佳实践合集,系统展示了如开源动力机器人计划发布执行器硬件,或将颠覆高端机器人研发格局开源动力机器人计划(ODRI)近日公开发布了其“开源机器人执行器硬件”的完整设计包,标志着高性能机器人核心部件迈向开放与易获取的重要转折。该项目提供的不仅是概念设计,更是可直接投入生产的全套文档:包括详细的机械CAD文件(STEP格式)、P查看来源专题页GitHub 已收录 714 篇文章

时间归档

April 20261291 篇已发布文章

延伸阅读

谷歌T5X框架:模块化引擎驱动下一代Transformer模型浪潮谷歌研究院悄然推出T5X——一个模块化、可组合的框架,旨在统一大规模Transformer模型的训练、微调与推理。基于JAX和Flax构建,此举标志着谷歌正将其庞杂的AI开发基础设施整合至单一工业级代码库。该框架有望加速研究进程并推动前沿模谷歌Uncertainty Baselines:可信AI领域的静默革命谷歌研究院悄然发布了一款奠定人工智能新时代基石的重量级工具。Uncertainty Baselines不仅为衡量模型已知领域提供严格基准,更关键的是,它能量化模型未知的边界。从单纯追求性能到评估量化可靠性的范式转变,正成为高风险领域部署AI谷歌BigBird如何突破Transformer瓶颈,掀起长上下文AI革命谷歌研究院的BigBird通过稀疏混合注意力机制,从根本上解决了Transformer模型处理超长序列的计算难题。这项突破性技术让AI能够以前所未有的规模解析整部书籍、长篇法律文档乃至基因组数据,为长上下文理解打开了全新局面。谷歌Pix2Struct颠覆文档AI范式:无需OCR,直接理解视觉布局谷歌研究院推出突破性视觉语言模型Pix2Struct,彻底摒弃传统光学字符识别技术。该模型通过网页截图与对应HTML代码的配对预训练,直接学习解析视觉布局并提取结构化文本,有望为多格式文档理解带来更鲁棒的解决方案。

常见问题

GitHub 热点“Google's TimesFM Signals a Paradigm Shift in Time Series Forecasting”主要讲了什么?

TimesFM represents a fundamental rethinking of how time series forecasting is approached. Developed by Google Research, it is a decoder-only transformer model with 200 million para…

这个 GitHub 项目在“TimesFM vs TimeGPT performance benchmark”上为什么会引发关注?

At its core, TimesFM is a decoder-only transformer, a architecture choice that aligns with the success of models like GPT in natural language. However, the key adaptation lies in how it tokenizes time series data. Instea…

从“How to fine-tune Google TimesFM on custom data”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 17478,近一日增长约为 17478,这说明它在开源社区具有较强讨论度和扩散能力。