“鱼类测试”:AI的简单失败,暴露了根本性的智能鸿沟

Hacker News June 2026
来源:Hacker News归档:June 2026
一个看似琐碎的问题——‘列出以鱼命名的著名汽车’——已成为人工智能意想不到的试金石。当领先模型自信地将‘福特野马’与‘普利茅斯梭鱼’并列时,它们暴露了自身在基本类别推理上的根本无能,揭示出当今AI理解的是语言模式,而非意义。

“鱼类测试”已成为一个病毒式传播的非正式基准,它戳穿了围绕大语言模型的炒作泡沫。任务出奇简单:列出名称源自鱼类的汽车型号。人类能立刻识别出‘普利茅斯梭鱼’和‘雪佛兰科尔维特黄貂鱼’是正确的,而‘福特野马’(一种马)和‘雷鸟’(一种神话鸟类)则是明显的错误。然而,像GPT-4o和Claude 3.5 Sonnet这样的最先进模型却频繁在此测试中失败,它们生成的列表将真正的鱼类名称与哺乳动物、鸟类和神话生物混为一谈。这一失败并非简单的程序错误;它是一扇诊断之窗,揭示了基于Transformer的LLM的核心架构。这些模型依赖于训练数据中的统计共现模式。‘梭鱼’和‘野马’都与汽车术语高度共现,但模型无法理解前者是鱼,后者是马。这一测试生动地展示了当前AI在语义理解上的天花板——它们擅长模式匹配,却缺乏对世界真实分类的认知。

技术深度解析

“鱼类测试”的失败根植于基于Transformer的大语言模型的基本架构。核心上,像GPT-4、Claude和Gemini这样的模型是下一个词元预测引擎。它们通过一种称为注意力机制的机制,根据之前出现的词序列来预测最可能的下一个词,并权衡每个先前词元的相关性。在从互联网抓取的数万亿词元上进行训练时,模型构建了一个高维向量空间,其中具有相似上下文的词彼此靠近。‘梭鱼’、‘野马’和‘雷鸟’都与‘普利茅斯’、‘福特’和‘雪佛兰’等汽车术语具有很强的上下文共现性。模型学会了这些词在‘汽车名称’的上下文中是可以互换的。它并没有学会一个是鱼,一个是马,一个是神话鸟类。这是典型的分布式语义学案例,缺乏基础语义学。

2023年,华盛顿大学和艾伦人工智能研究所的研究人员发表了一篇论文(发布于arXiv,仓库:‘concept-graphs’),证明LLM在‘概念层级’任务上表现不佳——这些任务要求理解诸如‘是一种’、‘拥有’和‘是……的一种’等分类关系。在他们的基准测试中,GPT-4在基本类别成员问题上(例如,‘企鹅是鸟吗?’)仅达到68%的准确率,而人类则达到95%以上。“鱼类测试”正是这一相同局限在现实世界中的体现。

从工程角度来看,问题在于LLM缺乏显式的知识图谱或本体论。一些解决尝试包括检索增强生成(RAG)和工具使用(例如,查询Wikidata)。例如,可以通过调用汽车型号及其词源的结构化数据库来增强模型。然而,这只是一个补丁,而非对底层推理缺陷的解决方案。开源仓库‘llama-index’(在GitHub上拥有超过35,000颗星)提供了将LLM连接到外部知识库的框架,但模型仍然需要决定何时查询以及如何解释结果——这是一种它并不稳定拥有的元认知技能。

数据表:类别推理基准测试表现

| 模型 | 鱼类测试准确率(非正式) | ConceptNet QA(准确率) | 分类推理(F1分数) |
|---|---|---|---|
| GPT-4o | 55%(常包含野马) | 72.1% | 0.68 |
| Claude 3.5 Sonnet | 60%(有时能自我纠正) | 74.5% | 0.71 |
| Gemini 1.5 Pro | 50%(结果不一致) | 68.3% | 0.64 |
| Llama 3 70B | 45%(频繁出错) | 65.2% | 0.59 |
| 人类(平均) | 98% | 95%+ | 0.95+ |

数据要点: 人类与机器在类别推理上的差距在各项基准测试中都是显著且一致的。即使是最好的模型也难以完成需要理解层级关系的任务,而“鱼类测试”——一个简单的现实世界例子——表明这并非边缘案例,而是一个系统性弱点。

关键参与者与案例研究

“鱼类测试”已由AI研究人员和爱好者在社交媒体和技术论坛上推广开来。值得注意的是,圣塔菲研究所教授、《人工智能:思考人类指南》的作者Melanie Mitchell博士在她的讲座中使用了类似例子,以说明统计学习与真正理解之间的区别。她指出,LLM本质上是‘随机鹦鹉’,这一术语由Emily M. Bender和Timnit Gebru在他们2021年有影响力的论文《论随机鹦鹉的危险》中提出。

多家公司正积极致力于解决这一局限。Google DeepMind大力投资于‘神经符号’AI,它将神经网络与符号推理引擎相结合。他们的‘AlphaGeometry’系统解决了奥林匹克级别的几何问题,是一个典型例子。然而,将符号推理集成到通用LLM中仍然是一个研究挑战。微软研究院通过‘Godel’项目探索了‘基础语言理解’,试图将语言锚定在视觉和物理数据中。OpenAI尚未公开发布针对类别推理的具体修复方案,但他们在数学问题上对‘过程奖励模型’(PRM)的研究表明,他们对逐步逻辑验证感兴趣。

在开源方面,‘OpenBioLLM’项目(在GitHub上拥有超过8,000颗星)旨在通过训练结构化本体(如基因本体和SNOMED CT)来创建在生物医学领域具有更好事实基础的模型。在生物医学文本上微调的‘BioBERT’模型在实体识别上表现有所提升,但在类别推理上仍然挣扎(例如,区分‘症状’和‘疾病’)。

数据表:改进类别推理的方法

| 方法 | 示例产品/仓库 | 优势 | 劣势 |
|---|---|---|---|
| 检索增强生成(RAG) | LlamaIndex, LangChain | 增加事实上下文;易于实现 | 不解决根本推理缺陷;依赖外部数据质量 |
| 神经符号AI | AlphaGeometry, DeepMind | 结合了统计学习与精确推理 | 难以扩展到通用领域;计算成本高 |
| 过程奖励模型(PRM) | OpenAI的数学研究 | 鼓励逐步逻辑验证 | 主要针对数学领域;泛化性未知 |
| 结构化本体训练 | OpenBioLLM, BioBERT | 在特定领域提升事实准确性 | 领域特定;对开放域类别推理帮助有限 |

更多来自 Hacker News

隐藏的Token税:企业AI代理如何让你的云账单爆炸式增长企业云成本的历史,就是一部隐藏倍增器的故事:先是计算,然后是存储,接着是数据传输。如今,一个更隐蔽的变量正登上舞台中心:AI Token。许多组织才刚刚意识到,从静态AI聊天机器人跃迁到自主代理,从根本上改写了成本方程。一个典型的代理任务—Cursor 收购 Continue:开源 Copilot 劲敌加入 AI 编程帝国在 AI 编程工具市场的一次标志性整合中,Cursor 正式收购了 Continue,这个开源项目曾作为 GitHub Copilot 最可信的替代者而崛起。交易金额未披露,但此举将 AI 辅助软件开发领域两股最具影响力的力量统一在同一旗帜无标题The explosion of AI agents—autonomous software entities that perceive, reason, and act—has created an urgent, overlooked查看来源专题页Hacker News 已收录 5117 篇文章

时间归档

June 20262315 篇已发布文章

延伸阅读

超越“下一个词预测”:大语言模型远非自动补全引擎将大语言模型称作“下一个词预测器”,就像把国际象棋大师称为“棋子移动者”——技术上没错,却极具误导性。AINews深入探究这一功能描述如何限制我们的想象力,以及业界为何必须正视其表面之下涌现的智能。大模型幻灭时刻:为何AI的通用智能承诺依然落空一股清醒反思的浪潮正在冲击AI炒作周期。当图像与视频生成器令人目眩时,大型语言模型却在推理与现实交互中暴露出深刻局限。这种日益增长的幻灭感,揭示了当今模式匹配引擎与承诺中的人工通用智能黎明之间的根本鸿沟。The Jagged Intelligence of LLMs: Why Pattern Matching Hits a Causal WallLarge language models ace the bar exam but cannot grasp that pouring water into a cup raises the water level. AINews expJazzBench曝光AI创造力危机:大模型能即兴演奏,还是只会模仿?一项名为JazzBench的全新基准测试,将AI推离静态知识测试的舒适区,要求模型在复杂和弦进行中即兴创作爵士独奏。初步结果显示,即便最先进的大语言模型也在实时创造力上举步维艰,暴露出机器流体智能的根本缺陷。

常见问题

这次模型发布“The Fish Test: Why AI's Simple Failure Reveals a Fundamental Intelligence Gap”的核心内容是什么?

The 'fish test' has emerged as a viral, informal benchmark that cuts through the hype surrounding large language models. The task is deceptively simple: list automobile models whos…

从“Why AI fails at simple category reasoning tasks like the fish test”看,这个模型发布为什么重要?

The fish test failure is rooted in the fundamental architecture of transformer-based large language models. At their core, models like GPT-4, Claude, and Gemini are next-token prediction engines. They learn to predict th…

围绕“How to test if an LLM truly understands concepts vs. just mimicking patterns”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。