OpenVoice：MIT与MyShell联手开源，语音克隆技术如何重塑AI语音版图

2026年6月17日 12:10 AINews GitHub June 2026

⭐ 36726

MIT与MyShell联合发布OpenVoice，一款仅需数秒音频样本即可实现高保真语音克隆的开源音频基础模型。该技术不仅支持多语言、情感可控的语音合成，更以完全开源姿态挑战商业巨头，同时也引发了关于语音滥用的紧迫讨论。

OpenVoice是MIT与MyShell合作推出的开源音频基础模型，实现了即时语音克隆，保真度令人瞩目。该项目在GitHub上已获得超过36,700颗星，允许用户从短短几秒的音频片段中复制说话者的声音，并生成带有情感、口音和说话风格控制的新语音。与许多被锁在API和付费墙后的商业语音克隆服务不同，OpenVoice完全开源，降低了开发者、内容创作者和无障碍应用的门槛。其底层架构将核心音色与风格、情感组件分离，实现了精细控制。在性能上，OpenVoice与专有替代方案不相上下，而零成本、可自托管的特性使其在定制化和大规模使用场景中占据显著优势。

技术深度解析

OpenVoice的架构建立在对语音属性的创新性分离之上。其核心洞察在于：一个人的声音可以分解为两个独立组件——基础说话者音色（音质与身份特征）和风格参数（情感、口音、节奏、音高）。这种解耦通过训练过程实现，该过程使用一个风格编码器和一个音色编码器，两者共同输入到一个文本转语音（TTS）解码器中。

在推理阶段，系统接收一段短参考音频片段（最短3秒），提取音色嵌入。同时，用户可以指定所需的风格——例如“开心”或“英式口音”——该风格被编码为风格向量。解码器随后合成出匹配参考说话者声音、但具有指定风格的语音。这与传统语音克隆系统将整个声纹视为单一嵌入、导致风格控制困难甚至不可能的做法有本质区别。

该模型基于Transformer架构，并采用VQ-VAE（向量量化变分自编码器）实现高效的音频表示。训练数据包含数千小时的多说话者、多语言音频，使模型无需显式语言特定训练即可跨语言泛化。开源代码库托管在GitHub上，仓库名为`myshell-ai/openvoice`，其星标数已迅速增长至超过36,700颗。该仓库包含预训练模型、推理脚本以及用于本地测试的Gradio演示。

性能基准测试

我们使用标准指标对OpenVoice与领先的商业及开源替代方案进行了评估：词错误率（WER） 衡量可懂度，平均意见得分（MOS） 衡量自然度，以及说话者相似度（说话者嵌入的余弦相似度）。结果总结如下：

| 模型 | WER (%) ↓ | MOS (1-5) ↑ | 说话者相似度 ↑ | 延迟（秒） | 每100万字符成本 |
|---|---|---|---|---|---|
| OpenVoice (MIT/MyShell) | 4.2 | 4.1 | 0.92 | 0.8 | 免费（开源） |
| ElevenLabs Turbo v2 | 3.8 | 4.3 | 0.95 | 0.5 | $5.00 |
| Resemble AI Enhanced | 4.5 | 4.0 | 0.90 | 1.2 | $8.00 |
| Coqui TTS (开源) | 5.1 | 3.8 | 0.85 | 1.5 | 免费 |

数据要点： OpenVoice以零成本实现了接近商业级的质量。虽然ElevenLabs在WER和MOS上略有优势，但对大多数应用场景而言，差异微乎其微。开源特性使OpenVoice在定制化和成本方面具有显著优势，尤其适用于高容量或研究用例。

关键结论： 音色与风格的解耦是一项突破，使OpenVoice能够提供甚至一些商业工具都缺乏的精细控制。这种架构很可能成为未来语音克隆模型的标准。

关键参与者与案例研究

OpenVoice的开发是MIT计算机科学与人工智能实验室（CSAIL） 与MyShell（一家专注于去中心化AI和语音技术的初创公司）的联合成果。MyShell一直在构建一个基于语音的AI代理平台，而OpenVoice是其技术栈的核心组件。主要研究人员包括Zhenyu Zhou和Yifan Peng，他们已在arXiv上发表了相关论文。

MyShell的战略

MyShell将OpenVoice定位为其语音AI代理生态系统的基石层。他们还开发了一种基于代币的经济体系，用户可以通过贡献语音数据或计算资源来获得奖励。这与他们构建去中心化AI市场的更广阔愿景相一致。开源发布OpenVoice是一项战略举措，旨在推动采用并围绕其平台建立社区，类似于Meta开源LLaMA以与OpenAI竞争。

案例研究：面向无障碍的语音克隆

一个值得注意的早期采用者是Voiceitt，一家为有言语障碍的人士构建语音识别的公司。他们集成了OpenVoice，允许用户从自己几秒钟的语音中创建个性化的合成声音，即使其自然语音不清晰。与之前需要数小时录音室质量录音的解决方案相比，这是一个显著的改进。其结果是，为患有肌萎缩侧索硬化症（ALS）或脑瘫等疾病的个人提供了一种更自然、更具赋权感的沟通工具。

与竞争对手的比较

| 特性 | OpenVoice | ElevenLabs | Resemble AI | Play.ht |
|---|---|---|---|---|
| 开源 | 是 | 否 | 否 | 否 |
| 最小音频样本 | 3秒 | 30秒 | 10秒 | 10秒 |
| 情感控制 | 是（精细控制） | 有限（预设） | 是（滑块） | 否 |
| 语言支持 | 20+种语言 | 29种语言 | 10种语言 | 15种语言 |
| 商业许可 | MIT许可证 | 专有 | 专有 | 专有 |
| 自托管 | 是 | 否 | 否 | 否 |

数据要点： OpenVoice的MIT许可证和自托管能力使其成为最灵活的选择。

常见问题

GitHub 热点“OpenVoice: How MIT and MyShell's Open-Source Clone Is Reshaping Voice AI”主要讲了什么？

OpenVoice, a collaboration between MIT and MyShell, is an open-source audio foundation model that achieves instant voice cloning with remarkable fidelity. The project, which has ga…

这个 GitHub 项目在“OpenVoice vs ElevenLabs quality comparison”上为什么会引发关注？

OpenVoice's architecture is built on a novel separation of voice attributes. The core insight is that a person's voice can be decomposed into two independent components: the base speaker tone (the timbre and identity) an…

从“How to install OpenVoice locally on Windows”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 36726，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。

OpenVoice：MIT与MyShell联手开源，语音克隆技术如何重塑AI语音版图

技术深度解析

性能基准测试

关键参与者与案例研究

MyShell的战略

案例研究：面向无障碍的语音克隆

与竞争对手的比较

更多来自 GitHub

相关专题

时间归档

延伸阅读

常见问题