技术深度解析
“次智”(subligience)这一概念的核心论据,建立在一个根本性的技术现实之上:当今的大语言模型(LLM)并非推理引擎,而是基于人类生成文本的统计表征进行操作的“下一个词元预测器”。其架构——主要是Transformer——堪称工程奇迹,但其内部运作机制更接近一张超维度查找表,而非人脑。
任何LLM的核心都是注意力机制,它允许模型衡量输入序列中不同部分的重要性。这并非因果推理。当LLM回答一个问题时,它并非在“思考”答案,而是在计算下一个词元的概率分布——基于其在训练过程中学到的模式。模型没有内在的世界模型,没有目标,也不理解真伪。它只是生成统计上最合理的延续。
这正是“次智”提供技术精度的关键所在。模型展现出一种自适应行为——它能响应提示、遵循指令,甚至模拟推理链条——但这一切都缺乏定义人类智能的那种底层理解。这个词捕捉到了行为的“仿佛”本质:模型表现得*仿佛*它理解了,但其机制从根本上截然不同。
以AI中的“世界模型”概念为例。包括DeepMind在内的越来越多研究机构,正试图构建能够学习环境因果结构的模型。然而,即便最先进的世界模型(例如用于游戏AI的DreamerV3)也是在感官数据的压缩表征上运作。它们学会了预测结果,但并不具备对规则的意识性理解。它们是“次智”的:它们能有效导航世界,却并不以人类意义上的“知道”来理解世界。
一个相关的开源项目是llama.cpp仓库(目前在GitHub上拥有超过70,000颗星)。该项目允许在消费级硬件上本地运行LLM。llama.cpp的存在本身就突出了一个关键点:LLM的“智能”是其权重和架构的函数,而非意识火花。它可以被量化、压缩,甚至运行在树莓派上。这是一个工具,而非一个心智。“次智”一词与这种工程现实完美契合。
性能基准数据:
| 模型 | 参数规模 | MMLU (5-shot) | HellaSwag (10-shot) | GSM8K (8-shot) | 每百万输入词元成本 |
|---|---|---|---|---|---|
| GPT-4o | ~200B (估计) | 88.7 | 95.3 | 90.5 | $5.00 |
| Claude 3.5 Sonnet | — | 88.3 | 94.7 | 92.0 | $3.00 |
| Gemini 1.5 Pro | — | 85.9 | 92.5 | 86.5 | $3.50 |
| Llama 3 70B | 70B | 82.0 | 89.5 | 80.0 | 免费 (开源) |
| Mistral Large 2 | 123B | 84.0 | 91.0 | 83.5 | $2.00 |
数据解读: 这些基准测试显示,顶尖模型之间的分数高度集中。所有领先模型在MMLU(一项广泛知识测试)上的得分均在82至89之间。然而,它们中没有一个“理解”这些问题。一个得分88.7的模型,并非具备人类88.7%的智能;它只是在测试集上达到了88.7%的模式匹配准确率。“智能”一词混淆了性能与理解。“次智”则正确地将这些分数框定为功能能力的度量,而非认知深度的体现。
关键玩家与案例研究
几家主要玩家已经在应对这一区别所带来的影响,即便他们尚未使用“次智”这个词。
OpenAI 在将其模型描述为“智能”方面最为激进。其公司名称本身就暗示了一条通往AGI的道路。然而,内部文件和泄露的通讯表明,公司内部越来越意识到能力与理解之间的鸿沟。GPT-4o及其“全能”能力(处理文本、视觉和音频)的发布,堪称“次智”的典范:它能描述一张图片,但它并不“看见”它。该公司的安全团队多次警告将模型拟人化的风险,而“次智”一词正是直接缓解这种风险的工具。
Anthropic 由前OpenAI研究员创立,采取了不同的方法。其模型Claude被明确设计为“乐于助人、无害且诚实”。该公司对“宪法AI”的研究,是试图将价值观嵌入模型的“次智”行为中。他们实际上是在努力构建一个安全的“次智”系统。他们决定发布Claude的“系统提示”,这等于默认了模型的个性是一种工程产物,而非涌现的意识。
Google DeepMind 或许在哲学上最接近“次智”概念。他们在“世界模型”和“基于人类反馈的强化学习”(RLHF)方面的工作,将AI视为一种优化工具,而非思考的存在。Demis Hassabis一直主张,我们需要先理解智能,才能构建智能,而当前的LLM是“统计鹦鹉”——这一描述与“次智”的内涵高度吻合。