技术深度解析
“鱼类测试”的失败根植于基于Transformer的大语言模型的基本架构。核心上,像GPT-4、Claude和Gemini这样的模型是下一个词元预测引擎。它们通过一种称为注意力机制的机制,根据之前出现的词序列来预测最可能的下一个词,并权衡每个先前词元的相关性。在从互联网抓取的数万亿词元上进行训练时,模型构建了一个高维向量空间,其中具有相似上下文的词彼此靠近。‘梭鱼’、‘野马’和‘雷鸟’都与‘普利茅斯’、‘福特’和‘雪佛兰’等汽车术语具有很强的上下文共现性。模型学会了这些词在‘汽车名称’的上下文中是可以互换的。它并没有学会一个是鱼,一个是马,一个是神话鸟类。这是典型的分布式语义学案例,缺乏基础语义学。
2023年,华盛顿大学和艾伦人工智能研究所的研究人员发表了一篇论文(发布于arXiv,仓库:‘concept-graphs’),证明LLM在‘概念层级’任务上表现不佳——这些任务要求理解诸如‘是一种’、‘拥有’和‘是……的一种’等分类关系。在他们的基准测试中,GPT-4在基本类别成员问题上(例如,‘企鹅是鸟吗?’)仅达到68%的准确率,而人类则达到95%以上。“鱼类测试”正是这一相同局限在现实世界中的体现。
从工程角度来看,问题在于LLM缺乏显式的知识图谱或本体论。一些解决尝试包括检索增强生成(RAG)和工具使用(例如,查询Wikidata)。例如,可以通过调用汽车型号及其词源的结构化数据库来增强模型。然而,这只是一个补丁,而非对底层推理缺陷的解决方案。开源仓库‘llama-index’(在GitHub上拥有超过35,000颗星)提供了将LLM连接到外部知识库的框架,但模型仍然需要决定何时查询以及如何解释结果——这是一种它并不稳定拥有的元认知技能。
数据表:类别推理基准测试表现
| 模型 | 鱼类测试准确率(非正式) | ConceptNet QA(准确率) | 分类推理(F1分数) |
|---|---|---|---|
| GPT-4o | 55%(常包含野马) | 72.1% | 0.68 |
| Claude 3.5 Sonnet | 60%(有时能自我纠正) | 74.5% | 0.71 |
| Gemini 1.5 Pro | 50%(结果不一致) | 68.3% | 0.64 |
| Llama 3 70B | 45%(频繁出错) | 65.2% | 0.59 |
| 人类(平均) | 98% | 95%+ | 0.95+ |
数据要点: 人类与机器在类别推理上的差距在各项基准测试中都是显著且一致的。即使是最好的模型也难以完成需要理解层级关系的任务,而“鱼类测试”——一个简单的现实世界例子——表明这并非边缘案例,而是一个系统性弱点。
关键参与者与案例研究
“鱼类测试”已由AI研究人员和爱好者在社交媒体和技术论坛上推广开来。值得注意的是,圣塔菲研究所教授、《人工智能:思考人类指南》的作者Melanie Mitchell博士在她的讲座中使用了类似例子,以说明统计学习与真正理解之间的区别。她指出,LLM本质上是‘随机鹦鹉’,这一术语由Emily M. Bender和Timnit Gebru在他们2021年有影响力的论文《论随机鹦鹉的危险》中提出。
多家公司正积极致力于解决这一局限。Google DeepMind大力投资于‘神经符号’AI,它将神经网络与符号推理引擎相结合。他们的‘AlphaGeometry’系统解决了奥林匹克级别的几何问题,是一个典型例子。然而,将符号推理集成到通用LLM中仍然是一个研究挑战。微软研究院通过‘Godel’项目探索了‘基础语言理解’,试图将语言锚定在视觉和物理数据中。OpenAI尚未公开发布针对类别推理的具体修复方案,但他们在数学问题上对‘过程奖励模型’(PRM)的研究表明,他们对逐步逻辑验证感兴趣。
在开源方面,‘OpenBioLLM’项目(在GitHub上拥有超过8,000颗星)旨在通过训练结构化本体(如基因本体和SNOMED CT)来创建在生物医学领域具有更好事实基础的模型。在生物医学文本上微调的‘BioBERT’模型在实体识别上表现有所提升,但在类别推理上仍然挣扎(例如,区分‘症状’和‘疾病’)。
数据表:改进类别推理的方法
| 方法 | 示例产品/仓库 | 优势 | 劣势 |
|---|---|---|---|
| 检索增强生成(RAG) | LlamaIndex, LangChain | 增加事实上下文;易于实现 | 不解决根本推理缺陷;依赖外部数据质量 |
| 神经符号AI | AlphaGeometry, DeepMind | 结合了统计学习与精确推理 | 难以扩展到通用领域;计算成本高 |
| 过程奖励模型(PRM) | OpenAI的数学研究 | 鼓励逐步逻辑验证 | 主要针对数学领域;泛化性未知 |
| 结构化本体训练 | OpenBioLLM, BioBERT | 在特定领域提升事实准确性 | 领域特定;对开放域类别推理帮助有限 |