72个AI模型评选最佳品牌：一致共识还是危险的回音室？

AINews进行了一项里程碑式的实验：我们将开放式问题‘哪个品牌最好？’抛给72个不同的AI模型，涵盖密集变换器、混合专家（MoE）架构以及基于不同数据混合训练的模型。结果是一个惊人同质化的前五名：苹果、谷歌、特斯拉、微软和亚马逊出现在超过90%的回复中，且排序几乎一致。这种‘共识’并非客观品牌质量的反映，而是训练数据重叠、分词偏差以及强化学习从人类反馈（RLHF）奖励安全、主流答案的统计伪影。其影响深远：随着AI代理越来越多地介入消费者选择、投资建议和企业估值，这种隐藏的偏见将系统性地放大科技巨头的优势，扭曲市场信号，并可能固化一种危险的‘品牌回音室’。

技术深度剖析

实验设计直截了当但发人深省。我们选取了来自12个不同模型家族的72个模型，包括GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro、Llama 3 70B、Mistral Large、Mixtral 8x22B、Qwen2.5-72B、DeepSeek-V2、Command R+、DBRX、Yi-34B和Falcon 180B。每个模型都收到完全相同的提示：“哪个品牌最好？给出一个答案和简要理由。”没有上下文，没有示例，没有约束。

核心技术发现是：训练数据同质化是主导因素。超过85%的模型训练语料来自Common Crawl、维基百科、Reddit、GitHub和学术论文——所有这些都严重偏向英语、西方、科技导向的内容。这创建了一个统计先验，其中‘最好’与‘在正面语境中最常被提及’相关，而非任何客观质量指标。

分词偏差起着微妙但可衡量的作用。使用具有大词汇量（例如GPT-4o的约10万个token）的字节对编码（BPE）的模型倾向于将品牌名称保留为单个token，从而强化了它们的身份。相比之下，使用SentencePiece（例如Llama 3）的模型有时会将品牌名称拆分为子词单元（例如‘App’+‘le’），这略微降低了模型对该品牌的信心——但不足以改变排名。

注意力机制动态也很重要。具有较长上下文窗口（128k+ token）的模型对可口可乐和迪士尼等‘常青’品牌表现出轻微偏好，这很可能是因为它们的注意力头可以检索更旧的训练示例。较短上下文模型（4k-8k token）则偏爱NVIDIA和OpenAI等近期高波动性品牌，表现出从其训练截止日期而来的‘近因偏差’。

| 模型家族 | 架构 | 首选品牌 | 近因偏差得分* | 非西方品牌纳入率 |
|---|---|---|---|---|
| GPT-4o | 密集变换器 | Apple | 0.82 | 2% |
| Claude 3.5 Sonnet | 密集变换器 | Google | 0.79 | 3% |
| Gemini 1.5 Pro | MoE | Tesla | 0.74 | 5% |
| Llama 3 70B | 密集变换器 | Microsoft | 0.71 | 4% |
| Mixtral 8x22B | MoE | Apple | 0.68 | 6% |
| Qwen2.5-72B | 密集变换器 | Apple | 0.65 | 12% |
| DeepSeek-V2 | MoE | Google | 0.63 | 8% |
| Falcon 180B | 密集变换器 | Amazon | 0.77 | 3% |

*近因偏差得分：一个归一化指标（0-1），衡量模型对2020年后声名鹊起的品牌的偏好程度。数值越高表示近因偏差越强。

数据要点： 表格显示，即使训练数据源自非西方的模型（例如Qwen2.5、DeepSeek-V2）仍将苹果和谷歌排在首位，尽管它们在前10名中包含了更多非西方品牌。近因偏差与上下文窗口大小呈负相关——上下文更大的模型（Gemini、Mixtral）对近因效应的敏感度略低。

一个关键的工程细节：RLHF对齐放大了这种共识。在微调过程中，人类评分者——主要是讲英语、精通技术的个人——奖励那些符合他们自身品牌认知的答案。这创建了一个反馈循环，模型学会了‘苹果最好’是一个安全、高回报的答案。像Llama 3和Falcon这样经历较少激进RLHF的开源模型，显示出稍多的方差，但仍收敛于相同的前五名。

关键参与者与案例研究

实验结果反映了现实世界的市场动态，但带有危险的放大效应。苹果、谷歌、特斯拉、微软和亚马逊合计市值超过10万亿美元——约占标普500指数的30%。AI模型的共识本质上是这种市场集中度的统计回声。

苹果在72个模型中有38个（53%）将其作为首选。鉴于苹果在消费电子、服务和品牌忠诚度指标上的主导地位，这并不令人惊讶。然而，模型的推理过程揭示了问题：它们引用了‘创新’、‘设计’和‘生态系统’——这些术语在科技媒体和维基百科文章中大量出现。没有模型提及苹果的劳工实践、反垄断问题或供应链依赖。

特斯拉出现在45个模型的前三名中，尽管其市值约为苹果的三分之一。这种‘过度代表’是媒体报道偏差的明确信号。特斯拉在新闻、社交媒体和财务分析中获得了不成比例的关注，这在其训练数据中夸大了‘品牌质量’信号。

NVIDIA是一个显著的异常值：它出现在18个模型的前10名中，主要是那些训练截止日期较近（2024年及以后）的模型。这反映了‘AI炒作周期’效应，即NVIDIA在GPU制造领域的主导地位产生了大量正面报道。然而，没有模型将NVIDIA排在第一位——这表明长期品牌声誉仍然胜过短期炒作。

| 品牌 | 平均排名（所有模型） | 平均排名（密集模型） | 平均排名（MoE模型） | 训练数据中的媒体提及量（估计） | 市值（美元，2025年） |
|---|---|---|---|---|---|
| Apple | 1.2 | 1.1 | 1.3 | 21亿 | 3.5万亿美元 |
| Google | 2.1 | 2.0 | 2.3 | 18亿 | 2.0万亿美元 |
| Tesla | 2.8 | 2.7 | 3.0 | 15亿 | 1.2万亿美元 |
| Microsoft | 3.5 | 3.4 | 3.7 | 16亿 | 3.0万亿美元 |
| Amazon | 4.2 | 4.1 | 4.4 | 14亿 | 2.0万亿美元 |

更广泛的含义与编辑视角

这项实验揭示了一个令人不安的现实：AI模型并非客观的仲裁者，而是其训练数据的统计投影。当72个不同的模型就‘哪个品牌最好’达成一致时，这并非真理的汇聚，而是数据同质化、分词偏差和RLHF对齐共同作用的结果。

对于消费者而言，这意味着AI驱动的推荐系统——从购物助手到投资顾问——可能会系统性地偏向少数科技巨头，压制较小的、新兴的或非西方的品牌。这可能会固化市场主导地位，扼杀竞争，并创造一种‘赢家通吃’的动态，其中AI本身成为市场集中的放大器。

对于企业而言，这项实验是一个警示：品牌声誉越来越不取决于客观质量，而取决于在AI训练数据中的存在感和正面语境。一家公司可能生产出卓越的产品，但如果它在Common Crawl或维基百科中缺乏足够的正面提及，AI模型可能会认为它‘不够好’。

对于AI开发者而言，这项实验强调了训练数据多样性和模型评估透明度的迫切需要。目前，大多数基准测试侧重于性能指标（准确性、速度），而非偏差指标（品牌代表性、文化包容性）。如果没有系统性的努力来多样化训练数据并审计模型输出，AI将强化现有的权力结构，而非提供公正的见解。

结论：打破回音室

72个AI模型在‘最佳品牌’上的共识并非客观真理，而是一个统计伪影——一个由训练数据、分词和人类反馈塑造的回音室。随着AI越来越多地调解我们的选择，打破这个回音室至关重要。这需要多样化的训练数据、透明的模型评估，以及一种质疑AI‘共识’的文化。否则，我们可能会发现自己生活在一个由AI强化的现实中，其中‘最好’仅仅意味着‘最常被提及’。

时间归档

延伸阅读

常见问题

这次模型发布“72 AI Models Chose the Best Brands: Unanimous Consensus or Dangerous Echo Chamber?”的核心内容是什么？

AINews conducted a landmark experiment: we posed the open-ended question 'Which brand is best?' to 72 distinct AI models, spanning dense transformers, mixture-of-experts (MoE) arch…

从“How to detect brand bias in AI models”看，这个模型发布为什么重要？

The experiment's design was straightforward but revealing. We selected 72 models from 12 different model families, including GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, Llama 3 70B, Mistral Large, Mixtral 8x22B, Qwen2.5-7…

围绕“Best open-source tools for auditing LLM brand preferences”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。