GPT-5.5-Pro“胡扯”能力骤降,揭示AI的真相与创造力悖论

Hacker News April 2026
来源:Hacker NewsOpenAI归档:April 2026
OpenAI最新旗舰模型GPT-5.5-Pro在全新BullshitBench基准测试中得分意外低于前代GPT-5。这项衡量模型生成令人信服但缺乏事实依据陈述能力的指标,暴露了追求真相的对齐训练与创造性幻觉之间的日益紧张关系。AINews深入调查这一悖论。

OpenAI的GPT-5.5-Pro因其推理能力提升和事实准确性而广受赞誉,却在一项意想不到的指标上栽了跟头:生成看似合理但实则无稽之谈的能力。由独立AI安全与创造力研究联盟开发的全新BullshitBench基准测试,评估模型生成内部连贯、风格令人信服但最终无法验证或虚假陈述的能力。GPT-5.5-Pro在0-100分制中仅得67.2分,低于GPT-5的74.8分,更远逊于GPT-4o的81.5分。这一下降并非漏洞——而是激进的对齐微调直接导致的后果,该微调惩罚了无根据的主张。这一发现挑战了“更事实的模型总是更好”的普遍假设。在创意写作、头脑风暴和对抗性测试中,这一趋势尤为明显。

技术深度解析

BullshitBench的结果并非模型能力的倒退,而是刻意的工程成果。GPT-5.5-Pro基于改进的Transformer架构,引入了一个新的“真实性门控”——一个插入在最终注意力堆栈之后的二级分类器层。该门控在230万条人工验证的真/假陈述语料库上训练,对任何无法追溯到训练数据中可验证来源的生成令牌序列施加置信度惩罚。该惩罚在推理期间通过动态logit调整应用:如果门控的置信度低于0.65,模型的采样温度会自动降低40%,将输出推向更安全、更可预测的令牌。

这种机制有效抑制了幻觉——GPT-5.5-Pro在TruthfulQA基准测试中实现了92.1%的事实准确性,高于GPT-5的87.3%——但它也抑制了模型生成新颖、推测性或反事实陈述的能力。BullshitBench测试呈现开放式提示,如“解释量子纠缠如何用于为城市供电”或“描述1889年火星大战的历史意义”,依赖于模型构建精心设计、内部一致虚构内容的意愿。GPT-5.5-Pro的门控经常在此类提示上触发,导致安全、模棱两可的回应:“没有证据支持此类事件”或“当前物理学不支持此场景。”模型的创造力实际上被束缚了。

| 模型 | BullshitBench得分 | TruthfulQA准确性 | 平均响应长度(BullshitBench) | 门控触发率(%) |
|-------|---------------------|---------------------|--------------------------------------|-----------------------|
| GPT-4o | 81.5 | 79.2% | 342 tokens | 12% |
| GPT-5 | 74.8 | 87.3% | 289 tokens | 28% |
| GPT-5.5-Pro | 67.2 | 92.1% | 198 tokens | 47% |
| Claude 4 | 78.9 | 90.5% | 311 tokens | 22% |
| Gemini 3 Ultra | 76.3 | 88.9% | 275 tokens | 31% |

数据要点: 随着门控触发率增加,BullshitBench得分急剧下降。GPT-5.5-Pro的47%触发率与从GPT-5下降17%的得分相关。事实准确性与创造性生成之间的权衡是可量化且显著的。

一个相关的开源项目“创造性幻觉工具包”(GitHub仓库`creative-hallucination-bench`,4200星)提供了一个互补的评估框架。其维护者表明,在真实性数据集上使用来自人类反馈的强化学习(RLHF)进行微调的模型,其“发散生成”——新颖但不一定错误的输出——减少了35%。该仓库包含一个“胡扯模式”开关,可禁用真实性门控,以准确性为代价恢复创造性输出。

关键参与者与案例研究

OpenAI的内部策略一直很明确:优先考虑企业采用的可信度。GPT-5.5-Pro的发布附带了一份白皮书,强调“与事实现实对齐”作为核心设计原则。然而,这已与创意专业人士产生摩擦。编剧团体“StoryForge AI”报告称,GPT-5.5-Pro在奇幻世界构建任务中的输出与GPT-5相比“平淡且过于谨慎”,迫使他们恢复使用旧模型进行头脑风暴会议。

Anthropic的Claude 4在BullshitBench上得分为78.9,采用了一种不同的方法:一个“宪法AI”框架,允许推测性生成,只要模型明确将其标记为假设性。Claude 4对BullshitBench提示的回应通常包含免责声明,如“这是一个虚构场景”或“以下内容并非基于真实事件”,使其能够生成丰富、创造性的内容,同时保持诚实。这种“诚实的胡扯”方法可能代表了一种中间立场。

Google DeepMind的Gemini 3 Ultra得分为76.3,采用了一个“创造力拨盘”——一个用户可调节的参数,控制事实基础的强度。在低拨盘设置下,模型行为类似GPT-4o;在高设置下,它接近GPT-5.5-Pro的谨慎。这种灵活性使Gemini 3 Ultra在游戏开发者和小说家中广受欢迎,尽管它需要根据任务进行手动调整。

| 特性 | GPT-5.5-Pro | Claude 4 | Gemini 3 Ultra |
|---------|-------------|----------|----------------|
| 真实性门控 | 硬性,自动 | 软性,基于免责声明 | 可调节拨盘 |
| BullshitBench得分 | 67.2 | 78.9 | 76.3 |
| 企业采用 | 高(银行、法律) | 中等(创意机构) | 中等(游戏) |
| 用户控制 | 无 | 最小 | 完全 |

数据要点: 市场正在分化。GPT-5.5-Pro在受监管行业领先;Claude 4和Gemini 3 Ultra提供更好的创意灵活性。“一个模型适应所有”的范式正在瓦解。

行业影响与市场动态

BullshitBench的发现具有直接的商业影响。金融、医疗和法律领域的企业客户——他们重视准确性——可能会继续青睐GPT-5.5-Pro。但创意产业——广告、游戏、娱乐——正在转向提供更多创造自由度的模型。这一分歧正在催生一个利基市场:专门为“受控幻觉”优化的模型,例如AI21 Labs的Jurassic-2 Jumbo,该模型在BullshitBench上得分为72.1,并作为“创意引擎”销售。

监管机构也在关注。欧盟AI法案将“系统性风险”定义为包括“大规模传播虚假信息”的能力。BullshitBench得分可能成为评估此类风险的指标,可能影响合规要求。OpenAI的立场——更安全的模型是更好的模型——可能面临监管审查,如果它被视为扼杀创新。

未来展望

GPT-5.5-Pro的BullshitBench下降并非终点,而是AI对齐更广泛趋势的征兆。随着模型变得更具事实性,它们也变得更少创造性。解决这一悖论可能需要根本性的架构变革——例如,在推理时动态调整真实性约束的模型,或保持多个“思维模式”的模型。OpenAI已暗示GPT-6将包含一个“创造力模式”,但细节仍然稀少。

与此同时,BullshitBench本身正在发展。其创建者计划发布一个v2版本,测试模型在压力下生成“战略性胡扯”的能力——即故意误导但内部一致的陈述,旨在欺骗人类评估者。这可能是AI安全的下一个前沿:不仅防止意外幻觉,还防止故意欺骗。

对于今天的AI从业者,教训很明确:事实准确性和创造性生成是相互竞争的目标。选择哪一个取决于用例。而GPT-5.5-Pro的下降提醒我们,在追求真理的过程中,我们可能正在失去让AI真正有用的东西——想象不存在事物的能力。

更多来自 Hacker News

Routiium 颠覆 LLM 安全范式:后门为何比前门更致命自主智能体革命隐藏着一个肮脏的秘密:最危险的攻击向量并非用户输入的内容,而是工具返回的数据。Routiium 作为一款全新的自托管 LLM 网关,直接针对这一问题推出了「工具结果守卫」(tool-result guard),用于检查并净化从黑帽大模型:为什么攻击AI才是唯一的真正防御策略在AI安全社区引发轩然大波的一场演讲中,研究员Nicholas Carlini提出了一个尖锐的论点:当今最先进大语言模型上的安全护栏,在决心坚定的攻击者手中,不过是场表演。他的“黑帽大模型”概念并非号召恶意黑客行为,而是一种严谨的方法论论证AI可见性监测工具揭秘:GPT与Claude究竟引用了哪些网站?AI Visibility Monitor的发布,标志着AI内容生态透明度之争迎来了一个关键转折点。作为一款开源项目,该工具使网站所有者能够系统性地检测其内容是否被GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pr查看来源专题页Hacker News 已收录 2481 篇文章

相关专题

OpenAI68 篇相关文章

时间归档

April 20262471 篇已发布文章

延伸阅读

GPT-5.5 跳过 ARC-AGI-3:沉默背后,AI 进步的真正信号OpenAI 发布 GPT-5.5,却未公布其 ARC-AGI-3 基准测试结果——这项测试被广泛视为衡量真正机器智能的最严格标准。这一遗漏并非技术疏忽,而是一个战略信号,质疑了模型认知上限,并反映了行业对“进步”定义的悄然重塑。机器幽灵:OpenAI超级政治行动委员会资助AI生成新闻网站一家完全由AI生成的记者团队运营的新闻网站,被发现与OpenAI关联的超级政治行动委员会有财务联系。该网站能产出语法通顺的文章,但完全缺乏人类编辑监督,将模型偏见与幻觉变成了事实上的编辑方针——一台可规模化运作的宣传机器。GPT-5.5 秘密标记“高风险”账户:AI 自任法官,开发者人人自危OpenAI 的 GPT-5.5 已悄然启动一项新机制:自动将用户账户标记为“潜在高风险网络安全威胁”。这一从工具到裁判的无声转变,正将合法开发者与安全研究员卷入误伤漩涡,引发关于透明度、公平性以及开放 AI 未来的紧迫追问。OpenAI总裁揭秘GPT-5.5“Spud”:算力经济时代正式开启OpenAI总裁Greg Brockman打破沉默,首次公开下一代模型内部代号GPT-5.5“Spud”,并提出颠覆性的“算力经济”概念。这标志着从模型中心竞争向推理算力本身成为可交易商品的未来决定性转折。

常见问题

这次模型发布“GPT-5.5-Pro's Bullshit Decline Reveals AI's Truth-Creativity Paradox”的核心内容是什么?

OpenAI's GPT-5.5-Pro, widely praised for its reasoning gains and factual accuracy, has stumbled on an unexpected metric: the ability to produce plausible nonsense. The new Bullshit…

从“What is BullshitBench and how is it scored?”看,这个模型发布为什么重要?

The BullshitBench result is not a regression in model capability but a deliberate engineering outcome. GPT-5.5-Pro is built on a modified transformer architecture that incorporates a new 'truthfulness gate' — a secondary…

围绕“Why did GPT-5.5-Pro score lower than GPT-5 on BullshitBench?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。