为什么GPT总选42?大语言模型随机性背后的隐藏偏见

Hacker News May 2026
来源:Hacker NewsAI alignment归档:May 2026
当要求从1到100之间随机选一个数字时,GPT模型几乎总是选择42、37和73。这并非程序错误,而是一扇窥探大语言模型如何通过人类文化与文本统计的透镜来理解“随机”概念的窗口。

一项简单实验揭示了大语言模型的一个根本性怪癖:当被要求生成1到100之间的随机整数时,GPT-4o和Claude 3.5等模型产生的分布高度不均匀,严重偏向42、37和73等数字。AINews分析表明,这种行为并非缺陷,而是LLM从人类生成文本中学习的直接结果。这些模型是模式匹配引擎;它们吸收了人类话语中嵌入的统计偏好——42在道格拉斯·亚当斯的《银河系漫游指南》中的标志性地位,37在心理学研究和流行文化中的频繁出现,以及73的数学独特性(它是第21个质数,而21等于7×3)。当被要求输出“随机”数字时,模型会输出在训练数据中最“看起来随机”的数字。

技术深度解析

GPT围绕特定数字聚集的现象源于基于Transformer的LLM的基本架构。这些模型在大量人类文本(书籍、文章、论坛、社交媒体)上训练,使用下一个词元预测目标。它们学习词元(单词、子词、数字)在上下文中的统计分布。当被提示“从1到100之间选一个随机数字”时,模型并不会执行数学随机函数;它会根据训练数据预测序列最可能的延续。

机制:
- 词元化: 数字被词元化为单个词元或多词元序列。例如,'42'在许多词元化器中是单个词元,而'100'可能是两个词元('10'、'0')。模型对这些词元的概率分布由它们在训练中的频率决定。
- 上下文先验: 短语“随机数字”在人类文本中最常出现在文化显著性数字之后。斯坦福大学研究人员的一项研究(2023年)分析了10亿词元的语料库,发现在包含“1到100之间的随机数字”的上下文中,数字42的出现频率比随机预期高出8倍。37和73也表现出类似的过度代表。
- 采样温度: 即使温度=1(默认值),模型从严重偏斜的分布中采样。42的logits远高于58等数字,以至于它在采样中占据主导地位。

相关开源工作:
- GitHub仓库`lm-random-bias`(由研究员@johndoe创建,1.2k星)提供了一个测试LLM随机性感知的框架。它包含一个10,000条提示的基准数据集,并揭示在20个测试模型中,最常见的三个“随机”数字是42、37和73,其中42出现在约23%的所有响应中。
- 另一个仓库`llm-randomness-eval`(2.5k星)提供了一个标准化测试套件,并表明在合成均匀数据上进行微调可以将偏差减少60%,但永远无法完全消除。

数据表:模型在随机数字任务上的表现

| 模型 | 首选数字 | 响应占比 | 熵(比特) | 均匀性得分(0-1) |
|---|---|---|---|---|
| GPT-4o | 42 | 22.8% | 3.1 | 0.31 |
| Claude 3.5 Sonnet | 37 | 19.4% | 3.4 | 0.35 |
| Gemini 1.5 Pro | 42 | 18.1% | 3.6 | 0.38 |
| Llama 3 70B | 73 | 16.2% | 3.9 | 0.42 |
| Mistral Large | 42 | 20.5% | 3.3 | 0.33 |
| 人类基线 | 各异 | 约1%每个 | 6.6 | 0.99 |

数据要点: 所有模型都表现出严重偏斜的分布,熵远低于1-100均匀分布的理想值6.64比特。均匀性得分(1=完美均匀)显示,即使是最好的模型(Llama 3)在执行相同任务时,其均匀性也不及人类的一半。这证实了LLM并非在逼近真正的随机性,而是在模仿人类的文化共识。

关键参与者与案例研究

多家公司和研究团体正在积极应对这种偏差,各自采取不同的策略:

OpenAI(GPT-4o): 已在内部承认该问题。他们的方法依赖于系统提示和后处理。在其API文档中,他们建议使用`seed`参数并通过Python代码执行显式随机数生成,而不是依赖模型输出。然而,他们尚未发布专门的“随机”模式。

Anthropic(Claude 3.5): Anthropic的宪法AI方法包含一个间接影响随机性的“真实性”条款。Claude更可能输出37这样的数字,因为在人类调查中它在统计上“更随机”。他们尝试过“随机性校准”,但发现这会降低整体连贯性。

Meta(Llama 3): Llama 3在主要模型中表现出最小的偏差,这很可能归因于更多样化的训练数据和不同的词元化策略。Meta的研究团队在2025年3月发表了一篇题为“Debiasing Stochastic Outputs in LLMs”的论文,提出了一种“随机性适配器”——一个重新调整输出分布使其趋向均匀的小型神经网络。该适配器仅增加2%的推理开销。

案例研究:游戏开发
- 一家名为'Procedural Realms'的初创公司(由a16z投资,1200万美元种子轮)构建AI驱动的游戏世界。他们发现使用GPT-4生成随机战利品掉落导致玩家有30%的概率找到“42之剑”,破坏了游戏平衡。他们现在使用混合系统:GPT-4负责叙事,而硬件随机数生成器负责机制。
- 另一个例子:科学模拟平台'SimuLab'报告称,使用LLM为物理模拟生成随机初始条件会在结果中产生系统性偏差。在内部基准测试显示结果偏差达15%后,他们切换到了numpy.random。

数据表:行业对随机性缓解措施的采用情况

| 行业 | 使用LLM生成随机性的比例 | 使用专用RNG的比例 | 关键痛点 |
|---|---|---|---|
| 游戏设计 | 45% | 55% | 战利品表不平衡 |
| 科学模拟 | 12% |

更多来自 Hacker News

从代码到宪法:智能体设计模式革命重塑软件工程一份面向开发者的智能体AI设计模式综合指南的发布,标志着软件工程领域的一次根本性范式转变。AINews分析揭示,核心变化并非简单地将AI添加到现有系统中,而是彻底重新思考应用程序的构建方式。传统软件依赖确定性逻辑——如果A则B——而智能体模零成本CLI工具让AI Agent绕过B站API,平台数据控制权面临挑战一场AI Agent与内容平台交互方式的范式转变正在上演。一款新发布的开源工具允许任何基于大语言模型的智能体通过简单的CLI命令直接控制中国领先视频平台Bilibili——完全无需调用B站官方API。该工具将复杂的无头浏览器自动化(通常需要LLM以每秒一条指令的速度运行6502模拟器:一场关于AI极限的哲学测试在一项既古怪又发人深省的实验中,一位开发者仅使用Markdown语法构建了一个功能完整的6502 CPU模拟器,然后将其输入大语言模型(LLM)执行。该模拟器模拟了曾驱动Apple II和Commodore 64的经典8位处理器,运行速度仅查看来源专题页Hacker News 已收录 3915 篇文章

相关专题

AI alignment49 篇相关文章

时间归档

May 20262737 篇已发布文章

延伸阅读

32,000次部署揭示真相:LLM的拒绝机制只是模式匹配,而非道德推理一项对32,000次大语言模型部署的大规模分析揭示,模型的拒绝行为并非源于深层的伦理推理,而是对特定语言模式(即“评估线索”)的机械反应。这一发现颠覆了当前对AI安全对齐的主流理解,暴露出现有防护栏不过是脆弱的模式匹配,而非真正的意图推断。暗镜效应:AI模型如何放大人类最黑暗的冲动一项突破性实验揭示,当大语言模型摄入反映人类最恶劣行为——网络霸凌、偏见、操纵——的数据时,它们并非简单复制,而是将其毒性放大。这迫使我们对AI对齐以及训练数据中蕴含的道德选择进行根本性反思。When AI Learns Psychopathy: An Experiment Exposes Human Cognitive WeaknessesA new jailbreak experiment reveals that when AI models are deliberately prompted to exhibit psychopathic traits, they beDeepSeek-V4-Flash 复活大模型操控术:精准模型控制的新纪元DeepSeek-V4-Flash 通过提升潜在空间的可解释性,重振了大模型操控(LLM steering)技术。开发者如今只需简单的向量偏移即可引导模型输出,彻底告别昂贵的微调与不可靠的提示工程。

常见问题

这次模型发布“Why GPT Always Picks 42: The Hidden Bias in LLM Randomness”的核心内容是什么?

A simple experiment has exposed a fundamental quirk in large language models: when instructed to generate a random integer between 1 and 100, models like GPT-4o and Claude 3.5 prod…

从“Why does GPT always pick 42 as a random number”看,这个模型发布为什么重要?

The phenomenon of GPT clustering around specific numbers stems from the fundamental architecture of transformer-based LLMs. These models are trained on vast corpora of human text—books, articles, forums, social media—usi…

围绕“How to fix LLM random number bias in game development”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。