AI模型为何频繁“中英混杂”?语言切换背后的技术真相

Towards AI May 2026
来源:Towards AIlarge language model归档:May 2026
大语言模型常常输出多语言混杂的文本,这种现象被称为“语码切换”。AINews独家揭秘:这并非系统漏洞,而是训练数据分布与分词机制共同作用的理性结果,对产品设计与多语言AI的未来影响深远。

大语言模型(LLM)越来越多地生成在句子中间切换语言的文本,这一行为令用户困惑,也给产品团队带来挑战。AINews的调查显示,这种语码切换并非模型故障的迹象,而是模型训练方式与语言处理机制的可预测后果。根源在于两个相互交织的因素:训练数据在不同语言间的不均衡分布,以及将文本拆分为可管理单元的分词策略。英语在训练语料库中占据主导地位,尤其在技术领域,这使得模型在选择专业术语的token时更倾向于英语。与此同时,分词器——通常是字节对编码(BPE)算法——从训练数据中学习子词单元,而英语的过度代表导致其他语言的token化效率低下。例如,一个英语技术术语可能只需一个token,但在泰语或阿拉伯语中可能被拆分为3-5个token。这种效率差异直接转化为模型“留在”非英语语言中的更高成本。2024年剑桥大学与Cohere的一项研究量化了这一效应:对于100个常见技术术语,英语平均每个词1.2个token,中文2.8个,阿拉伯语3.4个,韩语4.1个。数据表明,训练数据占比越低、分词效率越差的语言,语码切换频率越高。这并非随机现象,而是模型在token经济性与概率优化下的直接结果。

技术深度解析

大语言模型中的语码切换现象根植于两个核心技术机制:训练数据分布与分词策略。理解这些需要深入探究LLM学习和生成文本的内部运作。

训练数据不均衡

大多数公开可用的LLM都在网络规模的语料库上训练,其中英语占总token数的60-80%。例如,Common Crawl数据集(许多模型的主要来源)按字节计算约45%为英语,其他语言远远落后。这种不均衡意味着,对于任何给定概念,模型看到的英语示例要多得多。生成文本时,模型会赋予训练数据中统计上更常见的序列更高的概率。对于“machine learning”、“transformer”或“API”等技术术语,英语token的密度远高于其在印地语或斯瓦希里语等语言中的翻译对应词。因此,即使周围上下文是另一种语言,模型也会默认使用英语输出这些术语。

分词偏差

分词器是这出戏中未被歌颂的英雄——或反派。大多数现代LLM使用字节对编码(BPE)或Unigram分词。BPE从单个字符开始,迭代合并最频繁出现的token对,构建子词单元词汇表。这个过程完全由数据驱动。如果训练数据严重偏向英语,分词器将学习对英语高效但对其他语言低效的子词单元。例如,单词“transformer”在英语中可能是一个token,但在泰语或阿拉伯语中可能被拆分为3-5个token。这种分词低效意味着,用低资源语言生成一个词需要更多token,这增加了计算成本,也降低了该序列被选中的概率,因为模型偏好更短、概率更高的token路径。

2024年剑桥大学与Cohere的研究人员量化了这一效应:对于100个常见技术术语,英语平均每个词1.2个token,中文2.8个,阿拉伯语3.4个,韩语4.1个。这种差异直接转化为模型在涉及技术术语时“留在”非英语语言中的更高“成本”。

| 语言 | 每个技术词平均token数 | 训练数据占比(估计) | 语码切换频率(每1000 token) |
|---|---|---|---|
| 英语 | 1.2 | 65% | 5 |
| 中文 | 2.8 | 12% | 38 |
| 阿拉伯语 | 3.4 | 3% | 52 |
| 韩语 | 4.1 | 2% | 61 |
| 印地语 | 3.9 | 1.5% | 58 |

数据启示: 表格显示了清晰的关联:训练数据占比越低、分词效率越差的语言,语码切换率显著更高。这并非随机,而是模型对token经济性与概率优化的直接结果。

优化路径

生成文本时,模型本质上是在解决一个概率优化问题。它必须从数万个token的词汇表中选出下一个token。token的概率受前文语境影响,但也受其在训练中的频率影响。如果模型正在用西班牙语生成句子,需要输出“算法”这个词,它有两个选项:西班牙语token“algoritmo”(在训练中相对罕见)或英语token“algorithm”(非常常见)。英语token几乎总是具有更高的概率,尤其是当周围上下文包含其他技术术语时。因此,模型会为该token“切换”到英语,然后如果语境支持,可能在下个词切换回西班牙语。这是模型在不确定性下的理性选择。

相关开源工作

多个GitHub仓库正在积极探索这一问题。`tokenization-bias` 仓库(由苏黎世联邦理工学院团队维护,1.2k星)提供工具测量跨语言的分词效率并可视化语码切换模式。`multilingual-bench` 仓库(由Hugging Face维护,4.5k星)包含专门测试模型保持单一语言能力的基准。`code-switch-eval` 仓库(由微软研究院研究人员维护,800星)提供人工标注的语码切换示例数据集用于评估。

关键参与者与案例研究

多家公司和研究团队正在积极应对或利用产品中的语码切换现象。

OpenAI 在公开场合对此问题相对沉默,但内部文档显示,GPT-4和GPT-4o在训练时有意平衡多语言数据。然而,用户报告一致表明,GPT-4o仍然会出现语码切换,尤其是在使用训练数据占比更低语言提示时。例如,当用越南语提示时,GPT-4o频繁插入英语技术术语,如“API”、“database”和

更多来自 Towards AI

苹果向谷歌支付10亿美元获取Gemini:从自研AI转向租赁前沿智能的战略转折苹果决定向谷歌支付10亿美元获取Gemini访问权,标志着AI行业的一个分水岭时刻。时机——就在解决一起2500万美元AI诉讼的四天后——绝非巧合。这不是撤退,而是精心计算的资源重新分配:苹果立即获得世界级多模态AI能力,绕过了多年的研发和浏览器原生WebSocket协议:砍掉SDK依赖,语音AI延迟降至毫秒级AINews发现一个正在崛起的技术趋势:开发者们正绕过传统移动端SDK,通过构建自定义WebSocket协议,让网页浏览器直接连接Google Gemini Live。这一方案通常采用React作为前端、FastAPI作为异步后端,在语音流LangSmith审计追踪:让大语言模型在受监管行业中真正可问责LangSmith,由LangChain团队打造的观测性平台,近日推出了一套追踪与回调系统,从根本上重新定义了企业审计大语言模型(LLM)的方式。与传统仅记录输入输出的日志系统不同,LangSmith的架构捕捉了整个决策链:中间推理步骤、工查看来源专题页Towards AI 已收录 87 篇文章

相关专题

large language model78 篇相关文章

时间归档

May 20263028 篇已发布文章

延伸阅读

隐形的语言税:Tokenization如何制造全球AI定价不平等全球AI定价体系中潜藏着一道‘语言税’,导致非拉丁文字用户遭受系统性不平等。我们的分析揭示,为英语优化的分词算法迫使中文、日语等语言使用者为相同的AI服务支付显著更高的费用,这暴露了当前人工智能计量与定价方式的根本缺陷。苹果向谷歌支付10亿美元获取Gemini:从自研AI转向租赁前沿智能的战略转折在令人震惊的战略逆转中,苹果在解决一起AI相关诉讼仅四天后,便向谷歌支付10亿美元获取Gemini模型访问权。此举标志着从构建专有大型语言模型到租赁前沿智能的根本性转变,对移动AI格局产生深远影响。浏览器原生WebSocket协议:砍掉SDK依赖,语音AI延迟降至毫秒级一项新兴的WebSocket协议让浏览器直接连接Google Gemini Live,彻底摆脱SDK束缚,实现毫秒级实时语音AI交互。基于React与FastAPI构建的架构,正大幅降低专业级语音应用的开发门槛。LangSmith审计追踪:让大语言模型在受监管行业中真正可问责LangSmith推出的全新审计级追踪与回调系统,正将大语言模型从不可知的黑盒转变为完全可审计的系统。通过实时捕捉每一次Token生成、延迟波动和模型决策路径,这一基础设施层正在解决长期将LLM挡在受监管行业门外的合规瓶颈。

常见问题

这次模型发布“Why AI Models Mix Languages: The Technical Truth Behind Code-Switching”的核心内容是什么?

Large language models (LLMs) increasingly generate text that switches between languages mid-sentence, a behavior that has puzzled users and challenged product teams. AINews’ invest…

从“Why does ChatGPT mix languages in the middle of a sentence?”看,这个模型发布为什么重要?

The phenomenon of code-switching in large language models is rooted in two core technical mechanisms: training data distribution and tokenization strategy. Understanding these requires a look under the hood of how LLMs l…

围绕“How to stop AI from switching languages during generation?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。