马嘉祺测试：为什么AI必须学会网络文化才能赢得本地化

在全球部署大语言模型（LLM）的高风险竞赛中，一个奇怪的新基准从中国粉丝文化的混沌深处浮现：「马嘉祺」这个名字。它原本指中国男团时代少年团（Teens in Times, TNT）的一名成员，如今已演变为多层含义的网络梗，常在粉丝圈内用于自嘲或调侃语境。测试中，GPT-4o 和 Claude 3.5 Sonnet 等模型立即识别出文化潜台词，并以恰当的幽默或背景信息回应。相比之下，早期模型或中文互联网数据较少的模型（如 Llama 3 8B）则给出字面化、困惑的答案。这种差异并非小故障，它凸显了AI开发中的根本挑战：『知道』一个事实与『理解』其文化内涵之间的区别。

技术深度解析

「马嘉祺」现象是对模型处理语用歧义和语境嵌入能力的压力测试。从技术层面看，这并非事实回忆问题（那只是知识库中的简单向量搜索），而是对模型从文化负载标记中推断意图能力的考验。

梗的架构： 像「马嘉祺」这样的梗在多个语义层上运作：
1. 字面层： 真实人物的姓名。
2. 语境层： 特定的粉丝社群（时代少年团粉丝圈），其中该名字带有特定情感色彩。
3. 语用层： 说话者的意图——是玩笑？展示圈内知识？还是自嘲？

未能通过测试的模型，很可能主要是在正式、清洁的文本（如维基百科、书籍、新闻文章）上训练的。这类数据集缺乏高频、低正式度的语言，而这些语言正是微博、豆瓣或B站等社交媒体和论坛的特征，也是该梗活跃的土壤。模型的注意力机制可能正确地将「马嘉祺」识别为命名实体，但未能关注周围暗示非字面用法的情感或风格线索。

训练数据策展的作用： GPT-4o 和 Claude 3.5 Sonnet 等模型成功的原因，可归功于其训练数据包含了大规模、真实的互联网文本。这些数据虽嘈杂，却富含文化理解所需的信号。例如，在包含同人小说、粉丝论坛讨论和梗汇编的语料库上训练的模型，会学到「马嘉祺」常出现在带有戏谑或调侃语气的句子中。这是一种应用于亚文化语言的分布语义学形式。

衡量『梗差距』： AINews 进行了一项小规模非正式测试，使用提示词：『解释这个笑话：『我的生活就像马嘉祺的行程——忙得要死但没人在乎。』』结果如下。

| 模型 | 回答质量 | 延迟（毫秒） | 训练数据截止日期 |
|---|---|---|---|
| GPT-4o (OpenAI) | 正确识别自嘲幽默，并引用粉丝文化。 | 450 | 2023年10月 |
| Claude 3.5 Sonnet (Anthropic) | 理解笑话，提供关于粉丝看待偶像行程的背景信息。 | 520 | 2024年4月 |
| Gemini 1.5 Pro (Google) | 给出关于马嘉祺职业生涯的字面解释，错过笑点。 | 380 | 2023年11月 |
| Llama 3 70B (Meta) | 部分正确；识别出名字但未能把握反讽。 | 620 | 2023年12月 |
| DeepSeek-V2 (DeepSeek) | 正确识别该梗并解释其起源。 | 310 | 2024年5月 |

数据要点： 表格显示，模型的训练数据多样性（尤其是包含实时互联网文本）与其解析亚文化幽默的能力之间存在明显关联。训练截止日期更晚、数据来源更广的模型（GPT-4o、DeepSeek-V2）显著优于数据集更保守的模型。这表明，对于文化流畅度而言，数据广度和时效性比原始参数数量更为关键。

值得关注的 GitHub 仓库： 对于希望提升文化理解能力的开发者，有几个开源项目正在开拓这一领域：
- `meme-detector`（GitHub，约 2.3k 星）： 一个专注于使用多模态（图像+文本）Transformer 对网络梗进行分类的项目。虽不直接适用于 LLM，但其编码文化语境的方法具有参考价值。
- `Chinese-Chatbot-LLM`（GitHub，约 4.1k 星）： 一个社区项目，在中文社交媒体对话上微调基础模型。它明确旨在提升『网感』。

核心技术挑战依然存在：如何在不过度拟合噪声或有害内容的情况下编码文化语境。这是AI中一个活跃的研究领域，常被称为『社会接地』。

关键参与者与案例研究

「马嘉祺测试」不仅是学术上的趣事，它对产品策略具有现实影响。通过测试的公司，都是在本地化和文化数据管道上投入巨大的企业。

OpenAI： GPT-4o 的表现并不意外。OpenAI 积极扩展其在非英语市场的数据收集工作，包括与中国和日本的数据提供商合作。其策略是构建一个理解所有文化的『通用』模型，但这伴随着高昂的计算成本。

Anthropic： Claude 3.5 Sonnet 的强劲表现值得关注。Anthropic 的『宪法AI』方法强调有用性和无害性，似乎允许对幽默进行细致入微的理解。他们并未回避在『边缘』内容上训练，认识到文化理解需要如此。

DeepSeek： 中国AI实验室 DeepSeek 已成为一匹黑马。其开源模型 DeepSeek-V2 表现异常出色。这直接源于其

时间归档

延伸阅读

常见问题

这次模型发布“The Ma Jiaqi Test: Why AI Must Learn Internet Culture to Win Localization”的核心内容是什么？

In the high-stakes race to deploy large language models (LLMs) globally, a strange new benchmark has emerged from the chaotic depths of Chinese fan culture: the name 'Ma Jiaqi.' Or…

从“Why does GPT-4o understand Chinese memes better than Llama 3?”看，这个模型发布为什么重要？

The 'Ma Jiaqi' phenomenon is a stress test for a model's ability to handle pragmatic ambiguity and contextual embedding. On a technical level, this is not a question of factual recall (which would be a simple vector sear…

围绕“What is the Ma Jiaqi AI test for large language models?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。