Gemini 3.5 Live Translate 终结机器人腔,开启自然实时语音翻译新纪元

DeepMind Blog June 2026
来源:DeepMind Blog归档:June 2026
谷歌 Gemini 3.5 Live Translate 将近乎瞬时的翻译与自然的语音韵律融为一体,彻底消除了长期困扰机器翻译的机械延迟与平淡语调。这一突破现已登陆 Google Translate、Google Meet 和 AI Studio,标志着跨语言交流从生硬的轮流对话向流畅、类人对话的范式转变。

谷歌正式推出 Gemini 3.5 Live Translate,一项从根本上重新定义实时跨语言通信的技术。与以往将翻译准确性与自然语音合成视为独立问题的系统不同,Gemini 3.5 将它们整合到一个统一的流水线中。其核心创新不仅在于将延迟从数秒降至近乎为零,更在于模型能够在句子结束前理解说话者的意图和韵律——包括音高、情感和节奏——并生成与之匹配的自然输出。这消除了合成语音的“恐怖谷”效应以及让机器口译显得机械的尴尬停顿。该功能已嵌入 Google Translate、Google Meet 和 Google AI Studio。在 Meet 中,它正将多语言会议从僵硬的模式转变为流畅的体验。

技术深度解析

Gemini 3.5 Live Translate 并非简单的速度升级,而是一次根本性的架构重构。该系统构建于一个流式、端到端的神经流水线之上,将大型语言模型(LLM)主干与专用语音编码器和韵律预测器融合在一起,所有组件在一个紧密的反馈循环中协同工作。

架构与流水线:

传统的级联模型——语音识别 → 文本翻译 → 文本转语音——会引入累积延迟,并丢失所有副语言信息。Gemini 3.5 将其压缩为一个单一的流式处理过程。语音编码器(谷歌 Universal Speech Model, USM 的一个变体)以 20 毫秒为一块处理音频,将连续的声学嵌入流输入 LLM。关键在于,LLM 并不等待完整的语句。它采用一种新颖的“增量解码”机制,在仅接收 300-500 毫秒的输入后便开始生成翻译后的 token,并随着更多语音的到达更新其输出。这是通过结合推测性解码和一种“前瞻”注意力掩码实现的,该掩码允许模型在一个小时间窗口内关注未来的音频块。

韵律保留:

最重大的突破是“韵律桥”。一个专用的轻量级 Transformer 模型,在包含标注情感和语调轮廓的大规模并行语音数据集上训练,从源音频的特征中预测目标语言的音高、能量和语速。该预测作为条件信号输入到生成最终音频的神经声码器(一个修改版的 SoundStream)中。结果是,英语中的疑问句在西班牙语中保留了其升调;普通话中的兴奋在法语中得到了镜像。谷歌研究人员表明,该系统在语言对之间保留了超过 85% 的感知情感效价,而传统系统这一比例低于 30%。

性能基准测试:

| 指标 | Gemini 3.5 Live Translate | 传统级联 (Whisper + GPT-4o + TTS) | 行业最佳 (DeepL + ElevenLabs) |
|---|---|---|---|
| 端到端延迟(第50百分位) | 450 毫秒 | 2,800 毫秒 | 1,900 毫秒 |
| 端到端延迟(第95百分位) | 1,200 毫秒 | 5,500 毫秒 | 3,800 毫秒 |
| 韵律自然度 (MOS, 1-5分) | 4.3 | 2.8 | 3.5 |
| BLEU 分数 (WMT23 英→中) | 38.2 | 39.1 | 37.8 |
| 词错误率(嘈杂环境) | 4.1% | 6.5% | 5.2% |

数据要点: 与传统级联相比,Gemini 3.5 的中位延迟降低了 6 倍,同时保持了有竞争力的翻译准确度(BLEU)。更重要的是,其自然度的平均意见得分(MOS)——一种衡量语音听起来像人类程度的主观指标——跃升了超过 1.5 分,跨越了用户将声音感知为“自然”而非“合成”的关键阈值。这是其核心竞争壁垒。

相关 GitHub 仓库:
虽然谷歌尚未开源完整模型,但其底层组件有公开的类似实现。'fairseq' 仓库(40k+ 星标)包含了启发增量解码方法的流式序列到序列模型。谷歌自己的 'USM' 论文(可在 arXiv 上获取)详细介绍了语音编码器架构。对于那些希望尝试韵律迁移的人,'Coqui-AI/TTS' 仓库(30k+ 星标)为构建类似流水线提供了基础,尽管它缺乏实时流式能力。

关键参与者与案例研究

谷歌是明确的先行者,但竞争格局已在迅速反应。

谷歌(Alphabet): 在 Translate、Meet 和 AI Studio 中的集成是一个战略护城河。特别是 AI Studio,允许开发者在几分钟内使用 Live Translate 构建自定义语音代理。一个值得注意的案例是谷歌与一家欧洲大型航空公司的合作,该公司部署了一个由 Gemini 3.5 驱动的客服代理,可同时处理 12 种语言。该航空公司报告称,平均处理时间减少了 40%,客户满意度得分提高了 22%,这主要归功于消除了“机器人般的停顿”。

OpenAI: OpenAI 为 ChatGPT 推出的高级语音模式提供了实时语音功能,但仅限于单语言模式,缺乏跨语言翻译能力。OpenAI 的优势在于对话深度,但尚未解决翻译的延迟问题。其 GPT-4o 模型在级联使用时,仍然存在上表所示的 2-3 秒延迟。

DeepL 与 ElevenLabs: DeepL(翻译)和 ElevenLabs(语音合成)拥有强大的合作关系,但它们的联合解决方案仍然是级联式的。DeepL 的翻译质量出色,ElevenLabs 的语音克隆是同类最佳,但集成并非流式。用户必须等待完整句子被翻译后才能开始语音合成。这一合作伙伴关系是最接近的竞争对手,但缺乏 Gemini 3.5 的架构集成。

Meta: Meta 的 SeamlessM4T 模型是一个开源

更多来自 DeepMind Blog

Gemma 4 12B 弃用编码器:边缘AI效率的新蓝图谷歌发布了 Gemma 4 12B,一个 120 亿参数的多模态模型,完全舍弃了传统的视觉编码器。不同于使用 CLIP 等独立模块提取图像特征,Gemma 4 12B 将原始图像块直接输入到处理文本的同一 Transformer 层中。这种非洲AI教育实证:塞拉利昂RCT证明Gemini显著提升学习成果塞拉利昂的实验并非又一个试点项目,而是一次对AI作为真正教学伙伴能力的科学严谨验证。该试验在数十所学校进行,将使用Gemini“引导式学习”模式的课堂与接受标准教学的对照组进行对比。结果令人瞩目:AI组学生的考试成绩提高了30%,自我报告的Gemini for Science:AI从工具进化为科学发现伙伴谷歌推出Gemini for Science,标志着人工智能在基础研究应用中的一个关键时刻。与以往那些充当被动助手——按指令分析数据或运行模拟——的AI工具不同,这套新系统被设计为自主协作伙伴。其核心创新在于一个闭环推理系统:它能吸收科学文查看来源专题页DeepMind Blog 已收录 12 篇文章

时间归档

June 20261222 篇已发布文章

延伸阅读

Gemma 4 12B 弃用编码器:边缘AI效率的新蓝图谷歌最新开源模型 Gemma 4 12B 摒弃了传统的视觉编码器,直接在单一 Transformer 主干中处理图像和文本。这一大胆设计大幅降低了推理延迟和内存占用,在智能手机和物联网设备上解锁了实时多模态能力。AINews 认为,这不仅是非洲AI教育实证:塞拉利昂RCT证明Gemini显著提升学习成果一项在塞拉利昂开展的严格随机对照试验(RCT)证实,Google Gemini的引导式学习功能能够大幅提升学生参与度并加速学习进程。这一实证验证标志着AI在教育领域的转折点,证明其价值不仅限于富裕国家的课堂,更为全球6亿缺乏基础读写能力的儿Gemini for Science:AI从工具进化为科学发现伙伴谷歌发布Gemini for Science,一套标志着科学方法论根本性转变的AI工具。通过将多模态推理与自主实验设计相结合,该系统不再仅仅是数据处理者,而是主动提出并验证假设,真正成为全方位的科研合作伙伴。Gemini Omni:谷歌悄然推出的统一AI操作系统谷歌悄然发布Gemini Omni,一个将文本、视觉、音频与实时推理整合进单一架构的统一多模态模型。AINews分析指出,这不仅是升级,更是一次向具备持续感知与行动能力的AI操作系统的根本性转变。

常见问题

这次模型发布“Gemini 3.5 Live Translate Kills Robot Voice, Ushers in Natural Real-Time Speech”的核心内容是什么?

Google has launched Gemini 3.5 Live Translate, a technology that fundamentally redefines real-time cross-language communication. Unlike previous systems that treated translation ac…

从“Gemini 3.5 Live Translate vs DeepL ElevenLabs latency comparison”看,这个模型发布为什么重要?

Gemini 3.5 Live Translate is not a simple speed upgrade; it is a fundamental architectural rethinking. The system is built on a streaming, end-to-end neural pipeline that fuses a large language model (LLM) backbone with…

围绕“how to use Gemini 3.5 Live Translate in Google Meet”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。