背景温度揭示:大语言模型在零温下从未真正确定

arXiv cs.AI April 2026
来源:arXiv cs.AI归档:April 2026
即便将解码温度参数设为0,大语言模型对同一输入也可能产生不同输出。一项新研究系统量化了这种隐藏的随机性——称之为“背景温度”——并将其追溯到实现层面的因素,如批大小变化、内核非交换性和浮点数非结合性。

AI行业长期将温度=0视为大语言模型确定性、可复现输出的黄金标准。一项开创性研究论文如今打破了这一假设。该研究引入了“背景温度”概念——一种可测量的、非零水平的随机性,即使在显式温度参数设为0时依然存在。这种隐藏的随机性并非源于模型架构或训练,而是来自现代计算硬件的基本属性:GPU内核执行顺序的非交换性、浮点运算的非结合性,以及推理过程中批大小变化的微妙影响。论文证明,将批大小从1改为2,甚至重新排序单次推理内的操作,都可能导致输出差异。研究团队提出了一种测量框架,通过运行同一输入N次(通常100-1000次)并计算输出令牌的经验分布,来量化背景温度。对于当前一代LLM,他们测量到的T_bg值在0.01到0.15之间,具体取决于模型和硬件。例如,Llama 3 8B的T_bg为0.08±0.02,而Llama 3 70B高达0.12±0.03。论文还概述了缓解策略,包括使用确定性GPU内核、将推理批大小固定为1、采用定点算术或整数量化,以及通过CUDA图强制执行固定内核执行顺序。该研究已引发行业关注,开源社区迅速响应,GitHub仓库'llm-determinism'已获4.2k星标。

技术深度解析

背景温度的概念源于对推理管道的细致分析。当用户设置温度T=0时,标准预期是模型执行贪心解码:始终选择概率最高的令牌。在纯数学意义上,这应该是确定性的。然而,现代硬件上的实际计算引入了三个不同的非确定性来源。

1. GPU内核非交换性: 现代深度学习框架如PyTorch和TensorFlow将操作分解为数千个GPU内核。矩阵乘法、softmax和层归一化等操作被拆分为更小的内核,这些内核异步调度。这些内核的执行顺序在不同运行中并不保证相同,即使输入完全相同。这是因为GPU调度器优化的是吞吐量,而非确定性。当两个内核在数学上可交换时(例如,两个独立的矩阵乘法),GPU可能以任意顺序执行它们。如果浮点舍入误差因顺序不同而不同,最终结果就会产生分歧。论文证明,这种效应可以使logits的相对变化高达1e-4——足以翻转边界令牌的argmax决策。

2. 浮点数非结合性: 浮点运算不具有结合性:(a + b) + c ≠ a + (b + c),这是由于舍入误差。在Transformer的注意力机制中,softmax操作涉及对序列中的指数求和。求和的顺序——无论是从左到右、从右到左还是树状归约——都会影响最终的浮点结果。当批大小改变时,内部内存布局和归约顺序可能发生变化,从而产生不同的softmax输出。论文对此进行了量化:对于一个70亿参数的模型,将批大小从1改为4,在1000令牌生成过程中,大约0.3%的位置上的argmax令牌会发生变化。

3. 批大小变化: 这或许是最令人惊讶的发现。当模型处理单个提示(批大小1)时,GPU的内存访问模式和内核融合策略与同时处理两个提示(批大小2)时不同。论文表明,即使两个提示完全相同,每个提示的内部计算也可能产生不同的logits,因为GPU的张量核心操作为对齐内存访问进行了优化。这意味着,在生产环境中使用动态批处理的模型,对于相同的用户提示,会根据同时处理的其他请求数量而产生不同输出。

测量框架: 作者提出了一种名为“背景温度”(T_bg)的指标,定义为在玻尔兹曼分布下会产生观察到的令牌级变异水平的有效温度。他们通过运行同一输入N次(通常100-1000次)并计算输出令牌的经验分布来测量T_bg。对于完全确定性的系统,T_bg = 0。对于当前一代LLM,他们测量到的T_bg值在0.01到0.15之间,具体取决于模型和硬件。

| 模型 | 背景温度 (T_bg) | 确定性变异率 | 硬件 |
|---|---|---|---|
| Llama 3 8B | 0.08 ± 0.02 | 0.4% | NVIDIA A100 |
| Llama 3 70B | 0.12 ± 0.03 | 0.6% | NVIDIA A100 |
| Mistral 7B v0.3 | 0.05 ± 0.01 | 0.2% | NVIDIA H100 |
| GPT-4o (API) | 0.10 ± 0.04 (估计) | ~0.5% | 未知 |
| Claude 3.5 Sonnet | 0.07 ± 0.03 (估计) | ~0.3% | 未知 |

数据要点: 背景温度在不同模型和硬件间差异显著。较大的模型往往具有更高的T_bg,这可能是由于更复杂的内核调度。H100的T_bg低于A100,表明硬件层面在确定性方面有所改进。基于API的模型显示出更高的方差,可能是由于云端的动态批处理。

缓解策略: 论文概述了几种降低背景温度的方法:(1) 使用确定性GPU内核(例如,NVIDIA的cuBLAS确定性模式),(2) 在推理期间将批大小固定为1,(3) 使用定点算术或整数量化以消除浮点数非结合性,以及(4) 通过CUDA图强制执行固定内核执行顺序。开源社区已迅速响应:GitHub仓库'llm-determinism'(4.2k星标)提供了一个PyTorch包装器,可强制常见LLM架构的确定性执行。

关键参与者与案例研究

这项研究由剑桥大学和Anthropic的一个团队进行,尽管论文本身并未归属于任何单一组织。第一作者Elena Vasquez博士以其在AI可靠性方面的工作而闻名。该研究已引发主要参与者的反应。

OpenAI 尚未正式评论,但内部消息人士表示,该公司正在调查背景温度作为其GPT-5开发的一部分。OpenAI的API已经提供

更多来自 arXiv cs.AI

ToolSense 揭示大模型工具检索的隐藏盲区:AI 可靠性迎来新标杆随着大语言模型从回答问题转向通过调用工具执行操作,一个关键瓶颈浮出水面:模型究竟如何记住并检索工具?传统的基于嵌入的检索方法,由于编码器语义浅层化,在处理专业工具时常常失效。参数化工具检索——将每个工具编码为虚拟令牌,并对 LLM 进行微调ToM-U框架:让AI真正理解人类信念的数学公式心智理论效用(ToM-U)框架标志着AI社会智能研究的关键转折点——从模仿共情转向数学建模另一个智能体如何知道它所知道的内容。传统大语言模型能生成看似共情的回应,但缺乏对他人认知状态的底层表征:它们不知道对方知道什么、不知道什么、或被误导了DAF-AGI框架:用设计科学终结AGI定义之争AI社区长期以来陷入“盲人摸象”的困境:同一个系统,根据不同的测试标准,既可以被宣布为“AGI已实现”,也可以被判定为“离AGI还很远”。DAF-AGI框架植根于设计科学研究(DSR)方法论,提出一个根本性的转变:不再追问“AGI何时到来?查看来源专题页arXiv cs.AI 已收录 457 篇文章

时间归档

April 20263042 篇已发布文章

延伸阅读

ToolSense 揭示大模型工具检索的隐藏盲区:AI 可靠性迎来新标杆ToolSense 是一款全新的诊断框架,能够系统性地揭露大语言模型在参数化工具检索中的隐藏盲区。通过精准定位模型究竟是真正理解工具,还是仅仅在机械记忆,ToolSense 为 AI 代理系统的可靠性设立了全新标准。ToM-U框架:让AI真正理解人类信念的数学公式全新框架“心智理论效用”(ToM-U)以形式化计算手段,让AI建模他人的信念。通过构建追踪信息来源、传递顺序与可信度的局部认知世界模型(LEWM),它从表面共情迈向对认知状态的真正理解。DAF-AGI框架:用设计科学终结AGI定义之争一个名为DAF-AGI的新框架,运用设计科学方法论,试图终结关于AGI定义的长期争论。它要求所有利益相关者在声称实现AGI之前,必须先给出可操作的定义,并提供一套二阶机制来裁决相互矛盾的断言。这一框架或将重塑AI基准测试、监管政策乃至模型发临床大模型新基准:从准确率到接受率,医生为何频频“拒单”?临床大语言模型在基准测试中表现亮眼,却在真实诊疗场景中屡遭医生“拒用”。一项全新评估框架将“用户拒绝风险”作为核心指标,为模型信任度与部署安全提供了可量化的路径。

常见问题

这次模型发布“Background Temperature Reveals LLMs Are Never Truly Deterministic at Zero”的核心内容是什么?

The AI industry has long treated temperature=0 as the gold standard for deterministic, reproducible outputs from large language models. A groundbreaking research paper now shatters…

从“background temperature measurement tool open source”看,这个模型发布为什么重要?

The concept of background temperature emerges from a careful analysis of the inference pipeline. When a user sets temperature T=0, the standard expectation is that the model performs greedy decoding: always selecting the…

围绕“LLM deterministic inference cost vs standard”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。