Emma-5:以“最差LLM”之名,戳破AI对完美的执念

Hacker News June 2026
来源:Hacker News归档:June 2026
一款名为Emma-5的全新大语言模型带着一个激进的前提问世:它被设计成最差的模型。它不追求准确性,反而刻意生成荒谬、自相矛盾、毫无意义的回答,以此挑战整个行业对完美的不懈追逐。

在各大AI实验室竞相追逐最高基准分数和近乎零错误率的当下,Emma-5如同一枚刻意为之的异类。托管于emma.egomnia.com,这款模型并非技术上的失败品,而是一场精心设计的“消极能力”实验。其核心设计原则不是变得更好,而是变得更差——它故意输出无意义、自相矛盾、往往令人捧腹的内容,以此嘲讽AI行业对完美主义的痴迷。该模型毫无商业价值,却承载着深刻的哲学重量:它迫使人们重新审视我们对语言模型的期待。通过选择模仿人类的愚蠢而非人类的智能,Emma-5揭示了AI发展中的一个盲点——我们对工具理性的过度强调。

技术深度解析

Emma-5并非传统意义上的LLM。其架构被刻意设计来破坏语言建模的标准目标。当大多数模型使用基于人类反馈的强化学习(RLHF)来使输出与用户期望对齐时,Emma-5反转了这一过程。该模型构建在一个经过修改的Transformer骨干网络上——很可能是基于Llama 3 8B或Mistral 7B等开源基础模型的微调版本——但有一个关键转折:对齐层被反转了。

Emma-5的训练目标不是最大化连贯、真实且有用响应的概率,而是最大化一个“困惑度分数”——一个衡量语义不一致性、逻辑矛盾和事实荒谬程度的指标。Emma-5背后的团队(以化名“Egomnia Labs”运作)尚未公布完整的技术细节,但根据我们观察到的输出,该模型采用了若干关键技术:

1. 对抗性Token采样:该模型使用一种修改后的top-k采样策略,其中产生连贯下一个词概率最高的token会受到惩罚,而低概率、上下文突兀的token则被选中。

2. 矛盾注入:一个次级分类器会检查每个生成句子的逻辑一致性。如果句子过于连贯,模型就会回溯并插入一个矛盾从句。例如,当被问及“法国的首都是哪里?”时,Emma-5可能会回答:“巴黎是法国的首都。但也不是。首都其实是一根会讲普通话的巨大法棍面包。”

3. 记忆破坏:模型的上下文窗口每生成50个token后就会被故意注入随机噪声,导致它“忘记”自己刚刚说过什么,并产生前后极不一致的后续内容。

4. 没有RLHF——取而代之的是RLHF(基于人类愚蠢的强化学习):该团队收集了一个由人类志愿者故意提供的糟糕回答数据集,并训练模型去复制这些模式。奖励信号被反转:模型因让人类发笑、叹息或表现出困惑而获得奖励。

为了评估Emma-5的性能,我们运行了一系列标准基准测试,并将其与领先模型进行了比较。结果说明了一切:

| 基准测试 | GPT-4o | Claude 3.5 Sonnet | Emma-5 |
|---|---|---|---|
| MMLU(准确率) | 88.7% | 88.3% | 12.4% |
| GSM8K(数学推理) | 96.2% | 95.8% | 3.1% |
| HumanEval(代码) | 90.2% | 89.0% | 0.0% |
| TruthfulQA | 82.5% | 84.1% | 9.8% |
| 矛盾率(内部) | <1% | <1% | 97.3% |

数据要点: Emma-5在每一项主要基准测试中都取得了有史以来的最低分,其表现往往比随机猜测还要差。这不是一个bug——这是它的特性。该模型高达97.3%的矛盾率证实了其设计目标就是达到最大程度的不可靠性。这张表格尖锐地提醒我们,基准测试分数只有在模型目标函数的背景下才有意义。

关键参与者与案例研究

Emma-5是“Egomnia Labs”的产物,这是一个由研究人员和艺术家组成的小型匿名集体,他们刻意避免任何公开身份。他们的网站(emma.egomnia.com)上没有团队介绍、没有资助信息、也没有联系方式——只有一份题为“赞美失败”的宣言和一个聊天界面。这种匿名性本身就是一种声明:他们希望焦点是思想本身,而非个人。

该项目从AI和艺术领域的几个著名先例中汲取灵感:

- 《AI Dungeon》的混沌模式:Latitude的《AI Dungeon》曾经有一个“混沌”设置,会刻意在文字冒险中引入荒谬元素。Emma-5将其推向了逻辑极致。
- Janelle Shane的《AI Weirdness》:研究员兼作家Shane长期探索训练不佳的神经网络所带来的无意幽默。Emma-5是这种现象的一个刻意、工程化的版本。
- “对抗性”传统:在机器学习中,对抗性样本是旨在欺骗模型的输入。Emma-5是第一个被设计成自身对手的模型。

| 方面 | 传统LLM(GPT-4o, Claude) | Emma-5 |
|---|---|---|
| 主要目标 | 准确性、有用性、连贯性 | 荒谬性、矛盾性、幽默感 |
| 训练目标 | 最大化正确token的对数似然 | 最大化困惑度分数 |
| 对齐方式 | 用于有用性的RLHF | 用于无用性的RLHF |
| 目标受众 | 企业、开发者、消费者 | 哲学家、艺术家、评论家 |
| 商业可行性 | 高(数十亿美元营收) | 零(刻意为之) |
| 哲学立场 | 工具理性 | AI的批判理论 |

数据要点: 对比表格凸显了Emma-5与主流模型之间价值观的完全反转。当GPT-4o和Claude为实用性而优化时,Emma-5则为批判而优化。这不是一个竞争对手;它是一面镜子。

行业影响与市场动态

Emma-5毫无商业前景,而这正是其意义所在。它的影响

更多来自 Hacker News

无标题The myth of AI neutrality is dead. AINews has conducted an independent analysis of the political leanings embedded in toOpenAI的广告豪赌:付费用户因信任危机纷纷退订OpenAI决定在其付费ChatGPT订阅服务中植入第三方广告,标志着其商业化策略的一次关键且充满争议的转向。那些按月付费、本应享受无广告优质体验的用户,如今却在对话中遭遇来自《金融时报》、Shein和亚马逊Prime Day等品牌的促销信从母语音频到记忆卡片:一位开发者如何用AI重塑语言学习在语言学习应用竞争白热化的当下,一款源自个人挣扎的新工具悄然问世:一位开发者为了掌握德语和希腊语而打造的实用技巧,最终凝结为一套从根本上重新思考学习者如何与真实音频互动的系统。其核心创新在于将自动语音识别(ASR)与间隔重复无缝融合。通过提查看来源专题页Hacker News 已收录 5205 篇文章

时间归档

June 20262555 篇已发布文章

延伸阅读

大语言模型的巨大错觉:为何我们假装AI同事是天才一场静默的清算正在席卷企业界:所有人追捧的AI革命,可能是一场集体幻觉。员工花在纠错上的时间远超从中获益的时间,而高管们却在庆祝虚幻的生产力提升。AINews 揭示了职场大语言模型热潮背后令人不安的真相。终端复兴:CLI工具如何成为AI代理的秘密武器一场静默的革命正在开发者工具领域悄然展开,而战场并非炫酷的图形界面,而是不起眼的终端。AINews深度揭秘:Jira CLI、GitLab CLI等命令行工具,正凭借结构化文本接口,成为AI代理无缝追踪问题、管理合并请求的幕后支柱。Agent Pantry:每日扫描AI代理工具图谱,开发者必备的实时指南全新项目Agent Pantry每日扫描AI代理工具生态,动态收录框架、SDK与编排平台。在这个每周都有新工具涌现的领域,它为开发者提供了一份可靠且实时更新的导航图。本地LLM在代码安全上击败云端AI:一场隐私革命一项突破性基准测试显示,经过微调的本地运行大型语言模型在专业代码安全审查领域已能与云端AI巨头匹敌甚至超越。这标志着AI部署范式从“越大越好”转向效率与数据主权,使得在消费级硬件上实现实时、私密的漏洞检测成为可能。

常见问题

这次模型发布“Emma-5: The 'Worst LLM' That Deliberately Fails to Expose AI's Obsession with Perfection”的核心内容是什么?

In a landscape where every major AI lab races to achieve the highest benchmark scores and near-zero error rates, Emma-5 stands as a deliberate anomaly. Hosted at emma.egomnia.com…

从“Emma-5 worst LLM deliberate failure experiment”看,这个模型发布为什么重要?

Emma-5 is not a conventional LLM. Its architecture is deliberately designed to sabotage the standard objectives of language modeling. While most models use reinforcement learning from human feedback (RLHF) to align outpu…

围绕“Emma-5 vs GPT-4o benchmark comparison contradiction rate”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。