通用Claude.md将AI输出令牌削减63%,一场静默的效率革命正在上演

Hacker News March 2026
来源:Hacker NewsAI efficiency归档:March 2026
一项名为“通用Claude.md”的新方法正引发轰动,据称能将Claude模型的输出令牌数量大幅降低63%。这不仅是压缩,更是对大型语言模型与下游应用通信方式的根本性重构——它优先考虑机器可读的效率,而非人类习惯的冗长表达。

AI开发社区正见证一场静默而深刻的优先级转变:焦点正从原始模型能力,转向对运行效率与成本的极致关注。引领这一变革的是“通用Claude.md”方法,该技术强制Anthropic的Claude模型采用类似Markdown的结构化输出格式。通过剥离LLM典型响应中那些自然语言的修饰——如对话式开场白、解释性旁白和冗长格式——该方法仅传输核心数据、指令或代码。早期报告显示,这能将输出令牌量减少约63%,直接转化为更低的API成本和为开发者构建应用时更低的延迟。

其意义是多方面的。从技术角度看,它解决了机器对机器(M2M)通信中的一个关键瓶颈:传统LLM输出中充斥着大量对人类对话友好、但对机器处理冗余的“通信开销”。通过系统提示强制模型输出精简的结构化内容,开发者实质上是在重新编程模型的“沟通风格”。这不仅降低了每次API调用的成本,还减少了响应时间,对于构建复杂AI代理工作流或需要高频模型调用的应用至关重要。

更深层的影响在于,它标志着AI应用开发范式的演进。当模型能力达到一定阈值后,优化其“表达效率”成为新的竞争前沿。这种方法并非Claude独有,开源社区已出现类似框架(如GitHub上的`llm-structured-output`),旨在为多种模型强制结构化输出。这预示着未来AI开发将更注重模型与系统其他部分的无缝、高效集成,而不仅仅是追求更大的参数量或更华丽的演示效果。效率,正成为继能力之后的下一个关键战场。

技术深度解析

通用Claude.md方法基于一个简单而强大的洞见:在机器对机器(M2M)通信中,LLM输出的核心价值在于其结构化的语义内容,而非其作为流畅英语的呈现方式。该技术包含两个核心组件:一个受限的输出模式和一个强制执行该模式的提示策略。

架构与提示工程: 该方法的核心是使用一个系统提示,严格指示模型以特定的、极简的Markdown格式输出响应。这种格式消除了用于数据呈现的完整句子,使用简洁的标题,采用无需介绍性文本的列表和表格,并剥离所有对话式的元评论(例如,“这是您请求的分析:”)。对于代码生成,它意味着*仅*输出代码块,除非明确要求,否则不包含周围的解释。该提示实质上为特定任务重新编程了模型的“沟通风格”。

令牌经济学: 分析典型输出时,63%的减少量是可信的。一个标准的LLM响应可能会在以下方面消耗令牌:
- 介绍性/过渡性短语(10-15%)
- 为每个部分提供框架的解释性文本(20-30%)
- 冗长的格式和换行(5-10%)
- 结束语(5%)

通过强制要求移除这些元素的格式,节省的令牌会叠加。真正的技术创新不在于生成*后*压缩输出,而在于引导模型*从一开始*就生成更精简的输出,这比事后压缩要高效得多。

基准测试与性能: 虽然完整的公开基准测试仍在涌现,但内部开发者测试显示,每个请求的令牌数有显著改善。

| 输出类型 | 标准Claude输出(令牌) | 通用Claude.md输出(令牌) | 减少量 |
|---|---|---|---|
| JSON数据合成 | 420 | 155 | 63% |
| Python函数 | 310 | 115 | 63% |
| 多步骤分析 | 880 | 325 | 63% |
| API调用参数 | 195 | 72 | 63% |

*数据启示:* 在不同输出类型中,约63%减少量的一致性令人瞩目。这表明该方法系统地消除了标准LLM对话模式中固有的固定比例的“通信开销”,使得规模化应用的成本预测显著更可靠。

开源与社区发展: 这一概念已在开源社区引发活跃。GitHub上的项目如`llm-structured-output`(最近几周获得了约800颗星)提供了框架,不仅针对Claude,还能在多个模型上强制执行类似的结构化输出。另一个由前微软和谷歌工程师主导的仓库`aiconfig`,允许开发者定义可移植的、模型无关的提示配置,其中可以包含输出格式约束,使得像通用Claude.md这样的技术成为可部署应用程序包的一部分。

关键参与者与案例研究

Anthropic的战略定位: 虽然“通用Claude.md”方法源于开发者社区的实验,但Anthropic自身一直是高效通信领域的静默先驱。他们对Constitutional AI和模型自我批判的研究本质上就重视精确、结构化的推理。该公司的API已经提供了一个`system`提示参数,非常适合实施此类格式强制。我们预测Anthropic将很快正式集成或认可此方法的某个变体,可能会作为一个专为智能体工作流程定制的专用低成本、低延迟API端点。

竞争性回应: OpenAI并未停滞不前。他们最近推出的JSON模式并行函数调用是迈向更结构化、更高效输出的步骤。然而,这些通常是附加功能,而非对默认输出风格的变革性重构。谷歌的Gemini API凭借其原生的多模态结构,也处于采用类似效率措施的有利位置。竞争战场正从“最佳模型”扩展到“最高效且对开发者最友好的模型”。

早期采用者案例研究:
1. Cognition Labs (Devin AI): 据报道,这个AI软件工程智能体在其内部推理步骤之间传递代码、命令和状态时,使用了高度结构化的输出协议。在长时间自主编码会话中,降低每一步的令牌消耗对于维持可承受的运营成本至关重要。
2. 多智能体框架 (CrewAI, AutoGen): 这些多个AI智能体协作的平台是天然受益者。在CrewAI设置中,一个“研究员”智能体可以通过Claude.md风格的摘要将发现传递给“写手”智能体,从而大幅降低智能体间的通信成本。

| 公司/项目 | 主要效率关注点 | 与标准聊天相比的预估令牌节省 |
|---|---|---|
| Anthropic (通过社区提示) | 通用Claude.md格式 | 63% (输出) |
| OpenAI | JSON模式,函数调用 | 30-40% (上下文相关) |

更多来自 Hacker News

多智能体 AI 系统革命性重塑自动化漏洞发现格局网络安全格局正经历由多智能体大语言模型系统驱动的根本性变革。传统的漏洞扫描严重依赖静态签名和基于规则的引擎,往往产生高误报率,需要大量人工分类并延误修复工作,导致安全团队负担过重且响应滞后。新兴范式引入了协作式 AI 智能体,战略性地在扫描Webflow 祭出“代理优先”架构,无代码 Web 开发迎来范式革命Webflow 正在执行一次基础设施的根本性 pivot,其战略重心已从视觉设计工具转向成为新兴代理经济的首要编排层。这一转型重新定义了网站的本质:从静态的展示层转变为动态的、机器可读的接口,具备自主协商交易的能力。通过直接将语义元数据嵌入后 Web 时代:AI Agent 弃用 HTTPS 转向轻量级协议支撑人工智能的数字基础设施正在经历一场静默却深刻的转型,这场变革虽未大张旗鼓,却影响深远。随着自主 Agent 成为在线信息的主要消费者,专为人类视觉消费设计的现代 Web 遗留架构正日益显得过时,无法适应自动化流程的高吞吐要求。沉重的 J查看来源专题页Hacker News 已收录 4054 篇文章

相关专题

AI efficiency26 篇相关文章

时间归档

March 20262347 篇已发布文章

延伸阅读

Claude Code 进化:从代码助手到开发者操作系统的范式革命Claude Code 已不再仅仅是一个代码助手——它正在进化为一个完整的开发者操作系统。通过引入 Claude.md 持久记忆、Skills 模块、Subagents、插件以及模型上下文协议(MCP),Anthropic 正在构建一个模块Uber COO的Token ROI警告:AI盲目扩展时代终结的信号Uber首席运营官公开承认,公司在AI Token生成上的巨额投资越来越难以用具体的业务回报来证明。这家物流巨头罕见的自我反思,标志着行业可能从盲目的算力扩展转向对Token ROI的严格关注。DS4引擎:DeepSeek自研推理架构,重新定义AI效率新标杆DeepSeek悄然部署了专为其v4 Flash模型打造的定制推理引擎DS4,实现了毫秒级延迟和每token能耗降低3至5倍。这一举措标志着战略重心从原始模型性能转向推理效率,为实时智能体应用铺平道路,并重塑AI基础设施格局。Transformer的朴素本质:AI行业“越大越好”的时代正在终结最新分析揭示,Transformer架构天生具备一种趋向简洁的内在机制——其注意力机制会自然过滤冗余信息,生成稀疏而高密度的表征,无需任何事后压缩。这一发现直接挑战了当前“越大越好”的主流范式,暗示整个行业可能正在严重过度配置计算资源。

常见问题

这次模型发布“Universal Claude.md Cuts AI Output Tokens by 63%, Signaling a Silent Efficiency Revolution”的核心内容是什么?

The AI development community is witnessing a quiet but profound shift in priorities, moving beyond raw model capability to focus intensely on operational efficiency and cost. At th…

从“how to implement Claude.md for cost savings”看,这个模型发布为什么重要?

The Universal Claude.md methodology is predicated on a simple yet powerful insight: in machine-to-machine (M2M) communication, the primary value of an LLM's output is its structured semantic content, not its presentation…

围绕“Claude structured output vs OpenAI JSON mode”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。