AI模型为何频繁“中英混杂”?语言切换背后的技术真相

Towards AI May 2026
来源:Towards AIlarge language model归档:May 2026
大语言模型常常输出多语言混杂的文本,这种现象被称为“语码切换”。AINews独家揭秘:这并非系统漏洞,而是训练数据分布与分词机制共同作用的理性结果,对产品设计与多语言AI的未来影响深远。

大语言模型(LLM)越来越多地生成在句子中间切换语言的文本,这一行为令用户困惑,也给产品团队带来挑战。AINews的调查显示,这种语码切换并非模型故障的迹象,而是模型训练方式与语言处理机制的可预测后果。根源在于两个相互交织的因素:训练数据在不同语言间的不均衡分布,以及将文本拆分为可管理单元的分词策略。英语在训练语料库中占据主导地位,尤其在技术领域,这使得模型在选择专业术语的token时更倾向于英语。与此同时,分词器——通常是字节对编码(BPE)算法——从训练数据中学习子词单元,而英语的过度代表导致其他语言的token化效率低下。例如,一个英语技术术语可能只需一个token,但在泰语或阿拉伯语中可能被拆分为3-5个token。这种效率差异直接转化为模型“留在”非英语语言中的更高成本。2024年剑桥大学与Cohere的一项研究量化了这一效应:对于100个常见技术术语,英语平均每个词1.2个token,中文2.8个,阿拉伯语3.4个,韩语4.1个。数据表明,训练数据占比越低、分词效率越差的语言,语码切换频率越高。这并非随机现象,而是模型在token经济性与概率优化下的直接结果。

技术深度解析

大语言模型中的语码切换现象根植于两个核心技术机制:训练数据分布与分词策略。理解这些需要深入探究LLM学习和生成文本的内部运作。

训练数据不均衡

大多数公开可用的LLM都在网络规模的语料库上训练,其中英语占总token数的60-80%。例如,Common Crawl数据集(许多模型的主要来源)按字节计算约45%为英语,其他语言远远落后。这种不均衡意味着,对于任何给定概念,模型看到的英语示例要多得多。生成文本时,模型会赋予训练数据中统计上更常见的序列更高的概率。对于“machine learning”、“transformer”或“API”等技术术语,英语token的密度远高于其在印地语或斯瓦希里语等语言中的翻译对应词。因此,即使周围上下文是另一种语言,模型也会默认使用英语输出这些术语。

分词偏差

分词器是这出戏中未被歌颂的英雄——或反派。大多数现代LLM使用字节对编码(BPE)或Unigram分词。BPE从单个字符开始,迭代合并最频繁出现的token对,构建子词单元词汇表。这个过程完全由数据驱动。如果训练数据严重偏向英语,分词器将学习对英语高效但对其他语言低效的子词单元。例如,单词“transformer”在英语中可能是一个token,但在泰语或阿拉伯语中可能被拆分为3-5个token。这种分词低效意味着,用低资源语言生成一个词需要更多token,这增加了计算成本,也降低了该序列被选中的概率,因为模型偏好更短、概率更高的token路径。

2024年剑桥大学与Cohere的研究人员量化了这一效应:对于100个常见技术术语,英语平均每个词1.2个token,中文2.8个,阿拉伯语3.4个,韩语4.1个。这种差异直接转化为模型在涉及技术术语时“留在”非英语语言中的更高“成本”。

| 语言 | 每个技术词平均token数 | 训练数据占比(估计) | 语码切换频率(每1000 token) |
|---|---|---|---|
| 英语 | 1.2 | 65% | 5 |
| 中文 | 2.8 | 12% | 38 |
| 阿拉伯语 | 3.4 | 3% | 52 |
| 韩语 | 4.1 | 2% | 61 |
| 印地语 | 3.9 | 1.5% | 58 |

数据启示: 表格显示了清晰的关联:训练数据占比越低、分词效率越差的语言,语码切换率显著更高。这并非随机,而是模型对token经济性与概率优化的直接结果。

优化路径

生成文本时,模型本质上是在解决一个概率优化问题。它必须从数万个token的词汇表中选出下一个token。token的概率受前文语境影响,但也受其在训练中的频率影响。如果模型正在用西班牙语生成句子,需要输出“算法”这个词,它有两个选项:西班牙语token“algoritmo”(在训练中相对罕见)或英语token“algorithm”(非常常见)。英语token几乎总是具有更高的概率,尤其是当周围上下文包含其他技术术语时。因此,模型会为该token“切换”到英语,然后如果语境支持,可能在下个词切换回西班牙语。这是模型在不确定性下的理性选择。

相关开源工作

多个GitHub仓库正在积极探索这一问题。`tokenization-bias` 仓库(由苏黎世联邦理工学院团队维护,1.2k星)提供工具测量跨语言的分词效率并可视化语码切换模式。`multilingual-bench` 仓库(由Hugging Face维护,4.5k星)包含专门测试模型保持单一语言能力的基准。`code-switch-eval` 仓库(由微软研究院研究人员维护,800星)提供人工标注的语码切换示例数据集用于评估。

关键参与者与案例研究

多家公司和研究团队正在积极应对或利用产品中的语码切换现象。

OpenAI 在公开场合对此问题相对沉默,但内部文档显示,GPT-4和GPT-4o在训练时有意平衡多语言数据。然而,用户报告一致表明,GPT-4o仍然会出现语码切换,尤其是在使用训练数据占比更低语言提示时。例如,当用越南语提示时,GPT-4o频繁插入英语技术术语,如“API”、“database”和

更多来自 Towards AI

智能体RAG革命:AI成本骤降66%,解锁企业真实生产力企业AI领域正在经历一场从蛮力计算到智能编排的根本性转变。来自先行组织的早期部署数据显示,与传统单体式LLM方案相比,智能体RAG架构持续实现了超过66%的成本削减。这不仅仅是渐进式优化,它代表了AI系统设计与部署方式的范式变革。 核心创Azure引爆Agentic RAG革命:从代码到服务,重塑企业AI技术栈企业AI领域正迎来一个关键拐点:先进能力正从复杂的工程实现中被抽象出来,转化为可即取即用的服务。历史上,部署一个具备规划、工具使用和迭代检索能力的智能体,需要LangChain或LlamaIndex等框架的深厚专业知识,并伴随繁重的MLOp从面试谜题到AI核心器官:异常检测如何成为技术命脉人工智能领域正经历一场深刻变革,其标志是异常检测从学术好奇跃升为核心工程学科。这一转变意味着行业的价值体系正在发生根本性变化。那个仅在洁净、规整数据集上优化精度的时代已经终结。新的当务之急是构建具有韧性的系统,使其能在混乱、不可预测的真实世查看来源专题页Towards AI 已收录 57 篇文章

相关专题

large language model34 篇相关文章

时间归档

May 2026410 篇已发布文章

延伸阅读

隐形的语言税:Tokenization如何制造全球AI定价不平等全球AI定价体系中潜藏着一道‘语言税’,导致非拉丁文字用户遭受系统性不平等。我们的分析揭示,为英语优化的分词算法迫使中文、日语等语言使用者为相同的AI服务支付显著更高的费用,这暴露了当前人工智能计量与定价方式的根本缺陷。智能体RAG革命:AI成本骤降66%,解锁企业真实生产力一种全新的架构范式正在为企业AI带来前所未有的效率提升。智能体RAG——将智能体工作流与检索增强生成技术相融合——正将运营成本削减超过三分之二,同时将AI的实际效用从简单的问答领域,戏剧性地扩展到复杂的实际问题解决中。Azure引爆Agentic RAG革命:从代码到服务,重塑企业AI技术栈企业AI正经历根本性变革,从高度定制、代码密集的项目模式转向标准化、云原生的服务模式。微软Azure正将结合动态推理与数据检索的Agentic RAG系统产品化,纳入其服务矩阵。这一转变有望降低复杂AI智能体的部署门槛,标志着‘手工作坊式’从面试谜题到AI核心器官:异常检测如何成为技术命脉异常检测在顶尖技术面试中的突然崛起并非一时风尚,而是AI产业成熟度的直接映照。当模型从演示demo走向关键基础设施,行业的核心挑战已从单纯追求预测精度,转向构建能识别自身是否越界运行的系统。

常见问题

这次模型发布“Why AI Models Mix Languages: The Technical Truth Behind Code-Switching”的核心内容是什么?

Large language models (LLMs) increasingly generate text that switches between languages mid-sentence, a behavior that has puzzled users and challenged product teams. AINews’ invest…

从“Why does ChatGPT mix languages in the middle of a sentence?”看,这个模型发布为什么重要?

The phenomenon of code-switching in large language models is rooted in two core technical mechanisms: training data distribution and tokenization strategy. Understanding these requires a look under the hood of how LLMs l…

围绕“How to stop AI from switching languages during generation?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。