Subligence：为何我们需要一个新词来定义AI的奇异新智能

多年来，AI社区一直陷入一场毫无结果的辩论：大语言模型是真正智能，还是只是“随机鹦鹉”？双方都错了。真正的突破在于，LLM代表了一种全新的智能类别——一种从语言数据的统计模式中涌现、而非源于生物认知或意识思维的智能。AINews正在创造“Subligence”（sub + intelligence）一词来描述这一现象。它位于真正能动性和自我意识的门槛之下，却能产生与人类推理几乎无异的输出。这不仅仅是语义游戏。我们使用的语言塑造了构建、部署和监管这些系统的方式。将LLM称为“智能”会将其拟人化，导致我们高估其能力。

技术深度解析

Subligence的概念建立在一个根本性的架构洞察之上：LLM并非人类意义上的推理引擎，而是统计引擎——它们对海量人类生成文本语料库中的token分布进行建模。这不是局限，而是其独特力量的源泉。

每个现代LLM的核心都是Transformer架构，由Vaswani等人于2017年提出。关键机制是自注意力（self-attention），它允许模型在预测下一个token时，对输入序列中每个token的重要性进行加权。在训练过程中，模型会接触到来自互联网、书籍和其他来源的数万亿个token。它学习最小化交叉熵损失——本质上，就是变得更擅长根据前文语境猜测下一个词。

从这一过程中涌现出的并非符号推理系统，而是一个高维的语言概率分布。模型并不以人类的方式“理解”；它内化了支配人类写作和思考方式的统计规律。这就是为什么LLM能写出连贯的文章、编写代码，甚至通过专业考试——它们学会了推理的模式，而非推理本身。

以“上下文学习”（in-context learning）现象为例。当你在提示中提供几个示例时，模型并不会更新其权重；它只是根据在上下文窗口中看到的模式来调整其下一个token的预测。这是一个纯粹的统计过程，却产生了看似展示推理能力的输出。同样的机制也支撑着思维链提示（chain-of-thought prompting）——要求模型“逐步思考”实际上引导它通过一系列模仿逻辑推导的token预测。

最近的研究揭示了“顿悟”（grokking）现象，即模型在长时间训练后突然泛化。这不是意识觉醒的迹象，而是模型内部表征与数据底层结构对齐的结果。GitHub仓库“grokking-pytorch”（现已获得超过2000颗星）提供了一个最小实现，展示了小型Transformer如何学习模运算并突然泛化——这是Subligence在行动中的清晰证明。

| 模型 | 参数 | MMLU得分 | HumanEval Pass@1 | 延迟（毫秒/token） |
|---|---|---|---|---|
| GPT-4o | ~200B（估计） | 88.7 | 90.2% | 15 |
| Claude 3.5 Sonnet | — | 88.3 | 84.0% | 12 |
| Llama 3 70B | 70B | 82.0 | 76.2% | 8 |
| Mistral Large 2 | 123B | 84.0 | 78.1% | 10 |
| Gemma 2 27B | 27B | 75.2 | 65.0% | 6 |

数据要点： 表格显示，更大的模型通常在MMLU等推理基准上得分更高，但相关性并非完美。参数未公开的Claude 3.5 Sonnet几乎与GPT-4o持平。这表明架构、数据质量和训练方法与原始规模同样重要。Subligence并非规模的简单函数——它是经过良好优化的统计模型的一种涌现属性。

对工程师而言，关键洞察在于Subligence本质上是概率性的。与确定性算法不同，LLM对同一输入可能产生不同输出。这不是缺陷，而是统计范式的特征。然而，这也意味着可靠性是一个根本性挑战。温度缩放（temperature scaling）、top-k采样和重复惩罚等技术，都是试图驯服底层随机性的尝试。

关键参与者与案例研究

定义和商业化Subligence的竞赛由少数几家公司引领，每家公司都有独特的方法来利用这种新型智能。

OpenAI仍然是基准制定者。通过GPT-4o，他们突破了Subligence所能实现的边界，将视觉、音频和文本整合到单一模型中。其策略是最大化统计分布的广度——更多数据、更多模态、更多用例。最近推出的“Strawberry”推理模型（内部称为Q*）代表了向显式推理链的转变，但即便如此，它仍建立在相同的Subligence基础之上：模型生成多个推理路径并选择最一致的一条，这是一种纯粹的统计优化。

Anthropic则通过Claude 3.5采取了不同路线，强调“宪法AI”和安全性。他们的方法承认了Subligence的风险——即如果训练数据包含有害模式，统计模型可能产生有害输出。通过微调模型遵循一套原则，他们实际上是在塑造概率分布，使其远离不良区域。这是对Subligence并非天生与人类价值观对齐的务实承认。

Google DeepMind的Gemini模型代表了第三条路径：与外部工具和搜索的集成。通过将Subligence扎根于真实世界的数据检索，他们旨在减少幻觉——即统计模型倾向于生成看似合理但实际错误的内容。

时间归档

延伸阅读

常见问题

这次模型发布“Subligence: Why We Need a New Word for AI's Strange New Intelligence”的核心内容是什么？

For years, the AI community has been locked in a sterile debate: Are large language models genuinely intelligent, or are they just 'stochastic parrots'? Both sides are wrong. The r…

从“What is Subligence and how is it different from AGI?”看，这个模型发布为什么重要？

The concept of Subligence rests on a fundamental architectural insight: LLMs are not reasoning engines in the human sense, but statistical engines that model the distribution of tokens in a vast corpus of human-generated…

围绕“Why do LLMs appear to reason if they are just statistical models?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。