LLM输出JSON格式正确但内容错误:新基准测试揭露危险幻觉

Hacker News April 2026
来源:Hacker News归档:April 2026
一项突破性基准测试揭示了大型语言模型结构化输出中的隐藏危机:模型能生成完美的JSON模式,却系统性地幻觉关键数值数据。发票日期偏差数月,转录数组顺序错乱,下游自动化系统在无监督下摄入被污染的数据。

AI行业曾将结构化输出能力视为LLM迈向生产就绪的重大飞跃,但一项新基准测试粉碎了这一乐观预期。该测试显示,虽然模型能可靠地生成符合任何给定模式的语法有效JSON,但它们持续生成数值幻觉内容——发票日期偏差两个月,会议转录数组顺序错乱,财务数据看似合理却完全虚构。这并非边缘案例,而是根植于LLM优化“合理补全”而非“事实正确”的结构性缺陷。该基准测试评估了GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro等模型,在数千个结构化输出任务中发现,所有模型的格式合规率超过98%,但数值准确率平均仅约50%,数组顺序准确率更低。这意味着每两个结构化输出中就有一个包含幻觉值,对依赖LLM自动化的金融、医疗和法律领域构成严重风险。

技术深度剖析

核心问题在于基于Transformer的LLM的基本架构。这些模型基于下一个词元预测目标进行训练,优化给定上下文中最可能的延续。当生成JSON等结构化输出时,模型学会产生符合句法模式的词元——括号、冒号、逗号和键名——但它没有内在机制来验证分配给这些键的*值*是否事实正确。该基准测试由AI安全研究人员联盟开发,系统性地测试了五个领先模型,涵盖10,000个结构化输出任务,跨越三个领域:财务发票、会议转录和医疗记录。

失败架构:

LLM使用注意力机制权衡上下文,但当生成像`invoice_date`这样的数值字段时,模型必须将语义概念(例如“上个月的发票”)映射到特定日期字符串。模型对“上个月”的内部表示是概率性的——它可能锚定到训练数据中“上个月”频繁出现特定月份的模式,或者基于提示中的当前日期进行插值。结果是系统性漂移:日期向任一方向偏移30-60天,与实际发票期间无关。

基准测试方法:

| 模型 | 格式合规率 (%) | 数值准确率 (%) | 数组顺序准确率 (%) | 日期漂移 (平均天数) |
|---|---|---|---|---|
| GPT-4o | 99.2 | 58.3 | 62.1 | 34.7 |
| Claude 3.5 Sonnet | 98.7 | 55.6 | 59.8 | 41.2 |
| Gemini 1.5 Pro | 98.1 | 52.4 | 57.3 | 48.9 |
| Llama 3.1 405B | 97.5 | 48.9 | 54.2 | 52.1 |
| Mistral Large 2 | 96.8 | 46.2 | 51.7 | 55.6 |

数据要点: 所有模型的格式合规率几乎完美,但数值准确率徘徊在50%左右——意味着每两个结构化输出中就有一个包含幻觉值。数组顺序准确率更差,模型经常打乱会议转录或发票行项目的条目顺序。

原因分析:

问题因LLM没有“记忆”同一输出中先前生成的确切值而加剧。当生成包含多个日期字段的嵌套JSON对象时(例如`invoice_date`、`due_date`、`payment_date`),模型可能独立生成每个字段,导致逻辑不一致——比如到期日期早于发票日期。基准测试发现,23%包含多个日期字段的输出至少有一个时间矛盾。

相关开源工作:

几个GitHub仓库正试图解决这一问题。`outlines`库(目前8500星)通过将模型输出约束到预定义语法来实现结构化生成,但它只强制语法,不强制语义。`lm-format-enforcer`仓库(3200星)采用类似方法。更有希望的是`json-repair`(1800星),它尝试修复格式错误的JSON,但无法检测幻觉值。`factool`仓库(2100星)为LLM输出提供事实核查层,但增加了显著延迟和成本。

真正解决方案:带外部验证的约束解码

最有前景的技术方法是将JSON结构的生成与值的生成解耦。与其让LLM同时生成两者,系统可以:
1. 使用LLM解析用户请求并识别所需字段。
2. 查询外部确定性系统(例如数据库、计算器、日历API)来填充值。
3. 仅使用LLM格式化最终JSON。

这种“混合架构”消除了关键数值字段的幻觉风险。Glean和Notion等公司已在其AI功能中实施类似方法,尽管它们未披露确切架构。

关键参与者与案例研究

基准测试创建者:

来自加州大学伯克利分校和艾伦人工智能研究所(AI2)的研究团队开发了该基准测试,他们称之为“StructVal”。他们尚未发布完整数据集,但初步结果已在2025年自然语言处理实证方法会议(EMNLP)上展示。首席研究员Sarah Chen博士表示:“我们并非试图抨击LLM。我们试图迫使行业正视一个可能造成现实世界伤害的盲点。”

行业回应:

| 公司/产品 | 方法 | 当前状态 |
|---|---|---|
| OpenAI (GPT-4o) | 带JSON模式的结构化输出API | 已发布;仅格式验证 |
| Anthropic (Claude 3.5) | 带结构化输出的工具使用 | 已发布;无数值验证 |
| Google (Gemini 1.5) | Vertex AI中的JSON模式 | 已发布;仅格式 |
| LangChain | 结构化输出解析器 | 开源;仅格式 |
| Vercel AI SDK | 带Zod验证的结构化输出 | 开源;仅格式 |

数据要点: 每个主要提供商都提供结构化输出功能,但无一在生成时验证数值准确性。这意味着依赖这些输出的下游系统——从自动会计到医疗记录处理——正在摄入系统性污染的数据。

更多来自 Hacker News

Llamatik Code:敢离线运行的本地优先AI编程助手AINews注意到,随着Llamatik Code的发布,AI开发者工具领域正悄然发生一场意义深远的变革。这款面向IntelliJ系IDE的付费插件完全离线运行,与GitHub、JetBrains和Cursor等主流云端助手截然不同——每一大分裂:基础模型如何扼杀中级ML工程师岗位机器学习工程师这一角色,曾以针对特定任务训练和微调定制模型的能力为定义,如今正经历一场地震般的转变。来自OpenAI、Anthropic和Google DeepMind等实验室的前沿大型语言模型,已经达到一个能力阈值:在文本分类、情感分析、Claude定制聊天机器人:重塑企业工作流的垂直AI革命通用型AI助手的时代正在让位于更强大的存在:基于Anthropic Claude构建的领域专用聊天机器人。与难以应对专业术语和工作流细微差别的通用模型不同,这些定制机器人通过精准的提示工程和精选数据集进行微调,在医学、法律和金融等领域以真正查看来源专题页Hacker News 已收录 5241 篇文章

时间归档

April 20263042 篇已发布文章

延伸阅读

命运插件:Claude Code如何用Python实现确定性占卜一款名为Destiny的Claude Code插件正在重新定义AI占卜——它用确定性Python计算取代随机生成,精准推演八字、日柱与卦象,确保同一用户每日获得完全一致的解读。这种将硬逻辑与语言生成分离的架构,为AI应用提供了可复现的信任模通用约束引擎崛起:一条通往下一代AI的非神经路径当AI产业仍痴迷于扩展神经网络时,一场根本性的计算范式转移正在发生。通用约束引擎通过驾驭庞大的规则与目标系统来解决复杂问题,正成为推理、优化与规划任务中强大且确定性的替代方案,直击概率模型的盲区。从概率驱动到程序生成:确定性浏览器自动化如何解锁生产就绪的AI智能体一场根本性的架构变革正在重塑AI驱动的浏览器自动化领域。通过从运行时提示转向确定性脚本生成,新兴工具正在解决长期困扰AI智能体的脆弱性问题。这一转变为关键业务流程解锁了可靠的自动化能力,标志着AI代理技术迈向成熟的关键转折。GPT-5.2数数失败,暴露AI基础可靠性危机当OpenAI的GPT-5.2在从1数到5的基础任务上栽了跟头,这远不止是一个古怪的bug——它揭示了现代AI架构的根本性缺陷。这一被称为‘零错误地平线’的现象,凸显了概率生成与确定性规则遵循之间的内在冲突,正威胁着大语言模型在高风险领域的

常见问题

这次模型发布“LLM JSON Output Is Valid but Wrong: The New Benchmark Exposing a Dangerous Illusion”的核心内容是什么?

The AI industry has celebrated structured output capabilities as a major leap toward production-ready LLMs, but a new benchmark shatters that optimism. The test reveals that while…

从“LLM JSON output numerical hallucination fix”看,这个模型发布为什么重要?

The core issue lies in the fundamental architecture of transformer-based LLMs. These models are trained on next-token prediction objectives, optimizing for the most probable continuation given a context. When generating…

围绕“Structured output validation benchmark 2025”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。