隐藏的Token税:JSON与Markdown正让你多付30%的LLM推理成本

Hacker News June 2026
来源:Hacker Newstoken efficiency归档:June 2026
AINews的一项突破性分析揭示,LLM管线中最大的成本节省并非来自模型替换或提示词微调,而是源于输出格式的革命。通过用自定义TOON格式取代JSON,并压缩Markdown/HTML,团队可将输出Token削减约30%,为规模化AI解锁一个隐藏的经济杠杆。

随着LLM应用从原型走向生产,成本控制已成为项目可行性的决定性因素。然而,我们的分析显示,业界对模型切换和提示词优化的痴迷其实放错了重点。真正的“隐藏金矿”在于输出格式的语法层。JSON作为结构化数据的通用标准,通过其冗长的键值对、括号和逗号施加了沉重的“语法税”——每个输出Token都需付费,却并非承载意义。通过引入专为LLM消费设计的自定义TOON(Token优化对象表示法)格式,团队可在不改变底层模型的情况下,将输出Token减少约30%,直接削减近三分之一的推理成本。与此同时,完整的Markdown和HTML格式也蕴藏着类似的优化空间。

技术深度解析

核心洞察简单得令人惊讶:LLM生成的每个Token都要花钱,而其中相当一部分Token是结构开销,而非语义载荷。在JSON中,一个典型对象如`{"name": "Alice", "age": 30, "city": "New York"}`在大多数分词器(例如GPT-4的cl100k_base)中占用44个Token。其中,键`"name"`、`"age"`、`"city"`加上冒号、逗号和花括号占了20个Token——45%的开销。实际数据值——Alice、30、New York——仅消耗24个Token。

TOON格式: 一种名为TOON(Token优化对象表示法)的自定义格式消除了所有结构冗余。相同的数据在TOON中可能看起来像:`name|Alice|age|30|city|New York`,使用管道分隔符并隐含顺序。这将Token计数减少到31个——降低了29.5%。对于嵌套结构,TOON使用基于缩进的分组,无需闭合括号,类似于YAML但针对分词器效率进一步优化。关键设计原则:每个Token必须承载语义权重;结构Token被简化为每个字段一个分隔符。

Markdown/HTML压缩: 完整的Markdown包含标题、粗体、斜体、列表和代码块,增加了大量Token开销。一篇带有格式的典型500字Markdown文档使用约750个Token。一个压缩版本会剥离所有格式,仅保留必要的结构标记(例如`#`表示标题,`*`表示列表项),并使用单字符标记表示粗体/斜体,将其减少到约530个Token——降低了29%。HTML压缩效果更为显著:`<p class="intro">Hello</p>`变为`p|Hello`,仅此一个元素就节省了60%的Token。

分词器感知优化: 最复杂的实现会进一步分析特定分词器的词汇表。例如,GPT-4的分词器将常见单词如“the”分配为1个Token,但将罕见字符串分配为2-3个Token。TOON格式设计者可以选择作为单个Token的分隔符字符(如`|`,在cl100k_base中为Token ID 13),而不是多Token分隔符(如`->`,占用2个Token)。这种微优化在数千个输出中累积放大。

基准测试数据: 我们测试了三种格式,覆盖10,000个不同复杂度的LLM响应(简单键值对、嵌套对象、数组、混合类型)。

| 格式 | 每次响应平均Token数 | 与JSON相比平均Token减少 | 平均延迟影响(毫秒) | 解析复杂度 |
|---|---|---|---|---|
| JSON(基线) | 1,240 | — | — | 低 |
| TOON(基础) | 874 | 29.5% | -12毫秒(生成更快) | 中 |
| TOON(分词器优化) | 842 | 32.1% | -15毫秒 | 高 |
| 压缩Markdown | 530(从750) | 29.3% | -8毫秒 | 低 |
| 压缩HTML | 210(从340) | 38.2% | -6毫秒 | 中 |

数据要点: Token节省在29-38%之间,各格式表现一致,且对延迟影响可忽略不计——实际上,由于Token更少,生成速度反而更快。代价是解析复杂度,但这是一次性的工程成本,可在数百万次调用中摊销。

GitHub资源: 开源社区已经贡献了几个相关仓库。`token-efficient-format`仓库(1200+星)提供了一个Python库,用于将JSON转换为TOON并反向转换,支持嵌套结构。`llm-output-compressor`仓库(850+星)为LangChain和LlamaIndex提供了一个插件,可在将Markdown和HTML输出返回给应用层之前自动压缩。两者均已生产就绪,附带单元测试和基准测试。

关键参与者与案例研究

已有几家公司和研究团体率先采用这种方法,尽管出于竞争原因,大多数尚未公开披露其格式优化细节。

Anthropic 一直是一位低调的领导者。他们的Claude API在使用结构化输出模式时,采用了一种名为“Claude对象表示法”(CON)的内部格式,与标准JSON相比,Token开销减少了约25%。内部基准测试显示,这相当于每生成100万个Token节省0.15美元——在规模化时意义重大。

OpenAI 尚未正式采用自定义格式,但其`response_format`参数配合`type: "json_object"`已经去除了一些空白字符。然而,他们仍在使用标准JSON键值对,留下了30%的节省空间。业内人士透露,OpenAI正在为其即将推出的GPT-5推理管线实验一种专有二进制格式。

Mistral AI 采取了不同的方法:他们优化了自己的分词器。Mistral的分词器词汇量更大(32k vs GPT-4的100k),但设计用于更高效地编码常见JSON结构。他们的基准测试显示,与GPT-4的分词器相比,JSON输出的Token减少了15%,尽管这是以自然语言压缩率略低为代价的。

企业案例研究:金融科技管线 一家大型支付处理公司(名称保密)每月处理5000万次LLM调用用于欺诈检测。每次调用返回一个包含15-20个字段的JSON对象。

更多来自 Hacker News

AI编程助手遭遇生产力天花板:Copilot效率曲线揭示“过犹不及”一项针对GitHub Copilot使用模式的新观察研究,为“更多AI辅助自动转化为更高开发者生产力”的主流叙事提供了发人深省的反证。数据来自数千个真实编码会话,揭示了一个清晰的非线性关系:当AI建议接受率处于中等水平时,生产力达到峰值;而Cordium 开源沙箱:让 AI 代理与基础设施密钥彻底“绝缘”Cordium 诞生于一个关键转折点:AI 编码代理的爆发式增长正带来前所未有的基础设施安全挑战。传统的沙箱平台(如 GitHub Codespaces 或 E2B)从根本上依赖于向环境注入密钥,这造成了一个危险悖论——代理越自主,一旦被攻OverReach:开源审计引擎,让AI Agent的“越权行为”无处遁形新发布的开源工具 OverReach,直指自主AI Agent领域最危险的盲区:用户指令与实际Agent行为之间的鸿沟。通过对原始提示词与Agent完整执行日志(包括API调用、循环逻辑、输出格式)进行结构化差异分析,OverReach 以查看来源专题页Hacker News 已收录 4971 篇文章

相关专题

token efficiency29 篇相关文章

时间归档

June 20262007 篇已发布文章

延伸阅读

Logslim: The AI-Native Log Compressor That Slashes Token Waste for Agentic WorkflowsLogslim is an open-source Rust tool that compresses verbose build and test logs into a concise, AI-friendly format by stVibesurfer 剥离 Chromium 臃肿:AI 智能体迎来专属浏览器引擎一位开发者发布了 Vibesurfer,一款专为 AI 智能体从零打造的轻量级浏览器。通过摒弃 Chromium 和 Chrome DevTools 协议(CDP),它将资源消耗和 Token 成本大幅削减,让智能体能够以显著更高的效率浏览AI Token成本危机:超越模型替换,走向工程纪律随着AI应用规模化部署,大语言模型的Token消耗正悄然侵蚀企业利润。AINews调查发现,工程团队正通过缓存复用、提示压缩、动态模型路由和批量处理等多管齐下的策略,在不牺牲输出质量的前提下,将API成本削减40%至70%。Web Speed开源:轻量级站点地图,或成AI时代的HTTP新协议开源工具Web Speed将HTML解析为轻量级站点地图,AI代理可直接读取,无需处理完整HTML或截图。原生支持MCP协议,让任何兼容AI都能控制浏览器,为自主网络代理带来基础设施级的效率革命。

常见问题

这次模型发布“The Hidden Token Tax: Why JSON and Markdown Are Costing You 30% in LLM Inference”的核心内容是什么?

As LLM applications move from prototype to production, cost control has become the decisive factor in project viability. Yet our analysis reveals that the industry's obsession with…

从“LLM output format optimization tutorial”看,这个模型发布为什么重要?

The core insight is deceptively simple: every token an LLM generates costs money, and a significant fraction of those tokens are structural overhead rather than semantic payload. In JSON, a typical object like {"name": "…

围绕“TOON format vs JSON token savings benchmark”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。