技术深度解析
‘原始人模式’现象的核心,是用户施加在标记生成上的瓶颈。现代LLM如Claude 3、GPT-4和Llama 3是自回归的Transformer模型,逐个生成文本标记。每个处理的标记都会产生计算成本,大致与模型的参数数量和上下文长度成正比。基于API的LLM的标准定价模型(每百万输入标记$X,每百万输出标记$Y)使这一成本显而易见。
原始人模式通过添加一个强大的系统提示来覆盖模型的默认风格目标。典型的实现可能是:“你是一个原始的原始人。你的思考和表达都尽可能简单。只使用基本名词和动词。不要使用冠词(‘a’、‘the’)、连词或复杂句子。每条回复最多5个单词。目标:仅传达核心信息。”
这迫使模型进行实时语义压缩。而不是生成“我理解您关于季度销售数据的请求。我已经分析了数据并发现欧洲市场增加了15%,这非常有前景”,压缩后的回答变成“欧洲销售额增加15%”。每个标记的信息密度急剧上升。
我们可以建模效率提升。假设标准的有用AI回答平均使用25个标记。一个传达相同事实核心的原始人风格回答可能只使用7个标记。对于Claude 3 Opus这样的模型,输出成本约为每百万标记75美元,标准回答的成本约为0.001875美元。原始人回答的成本约为0.000525美元——减少了72%的标记成本。对于每月处理1亿次查询的企业,这仅输出标记就可节省每月135,000美元,还不包括因用户提示缩短而减少的输入标记成本。
| 交互类型 | 平均输出标记数 | 每百万查询成本(Claude 3 Opus) | 信息密度(任意单位) |
|---|---|---|---|
| 标准礼貌AI | 25 | $1,875 | 1.0(基准线) |
| 原始人模式 | 7 | $525 | ~3.6 |
| 电报体/技术型 | 15 | $1,125 | ~1.7 |
数据要点: 表格量化了压缩通信的显著成本优势。原始人模式在每个标记上实现了近4倍的信息密度,直接转化为每条查询72%的成本降低。这揭示了‘礼貌’和语法流畅性的巨大财务负担。
从技术角度看,这与学习标记化和自适应压缩的研究相一致。像Google的SentencePiece和Facebook的BPE算法等项目是基础,但它们优化的是语言可能性,而非成本效率。新兴研究,如论文《Token-Saving Finetuning》中提到的,探索训练模型以偏好较短、词汇密度更高的标记序列。GitHub仓库`Efficient-LLM/TokenLearner`展示了动态标记选择的方法,可能允许模型在生成过程中‘跳过’冗余标记——这是将原始人原则嵌入架构的更高级版本。
关键参与者与案例研究
原始人趋势是由用户主导的创新,但它正在促使现有玩家做出反应,并为专注于效率的新进入者创造机会。
Anthropic(Claude): 作为该梗的起源,Anthropic的模型,特别是Claude 3 Haiku,已经定位为一种成本效益高的选项。Haiku比Opus或Sonnet更快且更便宜,部分原因在于设计选择可能隐含地偏向简洁性。原始人技巧迫使Anthropic考虑是否正式提供一个‘简洁模式’API参数,让开发者能够精细控制冗长程度与成本之间的平衡。
OpenAI: OpenAI已经尝试了简明控制,例如`max_tokens`参数和要求简洁回答的系统提示。然而,其旗舰模型(GPT-4、o1)优化的是推理深度和指令遵循,而不是最小的标记支出。一家利用GPT-4并结合原始人风格预处理的初创公司可能会在特定应用中压低OpenAI自身的任务成本,这是一个竞争漏洞。
以效率为先的初创公司与模型: 几家公司在这一前提下从零开始构建。
- Replicate的`llama-3-8b-instruct` 和其他小型、微调的开源模型本身成本更低。策略是将它们与激进的提示压缩技术配对,以极低的成本实现‘足够好’的结果。
- Mistral AI 一直强调效率(每参数性能)。他们的Mixtral模型(专家混合)和较小的模型如Mistral 7B专为高吞吐量和较低推理成本而设计,吸引了与原始人技巧相同的成本敏感开发者。
- Perplexity AI 虽然是一家搜索引擎,但体现了‘答案优先,聊天靠后’的产品理念。其界面优先考虑简洁、有依据的答案