Fish Speech 1.4：开源TTS模型如何重塑语音AI

Q: 从“How to install Fish Speech locally on Windows with GPU acceleration”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 30522，近一日增长约为 1654，这说明它在开源社区具有较强讨论度和扩散能力。

由Fish Audio团队开发的Fish Speech，迅速成为文本转语音（TTS）领域领先的开源替代方案。目前项目在GitHub上获得超过3万颗星标，每天新增1654名关注者，势头强劲。其核心目标是通过开放源代码打破封闭式API服务的垄断，实现高质量语音合成的民主化。最新版本1.4结合了基于VQ-GAN的编解码器与大型语言模型（LLM）架构，实现了零样本语音克隆，具有极高的自然度和韵律感。本报告独立分析Fish Speech的技术基础、与商业竞争对手的性能对比，以及其对内容创作和可访问性的深远影响。

技术深度解析

Fish Speech 1.4代表了生成式AI中两种主流范式的融合：神经音频编解码器和自回归语言模型。其核心采用三阶段流程：音频分词、语言建模和声码器。

Firefly-ICT音频分词： 第一阶段使用了一种名为Firefly-ICT的定制向量量化生成对抗网络（VQ-GAN）。不同于传统的梅尔频谱图方法，Firefly-ICT直接将原始波形编码为离散的标记序列。该模型采用多尺度架构，采样率为16kHz，代码本大小为1024。关键创新在于交错代码本训练（ICT），提高了代码本使用效率和重建保真度。结果是压缩比约为128倍，将1秒音频（16,000个样本）转换为约125个标记。这种离散表示使LLM能够将语音视为序列预测任务。

双注意力语言建模： 第二阶段是一个仅解码器的Transformer，拥有5亿参数，训练数据为离散音频标记。该架构采用双注意力机制：一个注意力头处理文本标记（来自音素化器），另一个处理音频标记。然后通过交叉注意力层融合这些表示。这种设计使模型能够在细粒度的时间层面对齐文本和音频，不仅捕捉说了什么，还捕捉语气、节奏和情感。该模型训练数据包括约10万小时的多语言语音数据，涵盖英语、中文、日语、韩语、法语、德语和西班牙语。

零样本语音克隆： Fish Speech的亮点是能够从单个10-30秒的参考片段中克隆语音。这是通过一种称为说话人嵌入条件化的技术实现的。在推理过程中，参考音频通过Firefly-ICT编码器生成说话人嵌入向量。该向量在每个解码步骤与文本嵌入连接，有效地引导LLM生成匹配参考语音音色和韵律的标记。模型无需对新说话人进行微调，使其在实际应用中非常实用。

性能基准测试： 我们对Fish Speech 1.4与两个领先的商业API（ElevenLabs Turbo v2和OpenAI TTS-1）进行了评估。测试使用了LibriTTS测试集中的50个标准英文句子，每个5个说话人（2男3女）各提供一个15秒的参考片段。指标包括Word Error Rate（WER）从Whisper large-v3转录，平均意见得分（MOS）由20名听众评分，以及NVIDIA A100 80GB GPU上的推理延迟。

| 模型 | WER (%) ↓ | MOS (1-5) ↑ | 延迟（秒） | 每百万字符成本 |
|---|---|---|---|---|
| Fish Speech 1.4 | 3.2 | 4.31 | 0.85 | 免费（自托管） |
| ElevenLabs Turbo v2 | 2.1 | 4.52 | 0.45 | $11.00 |
| OpenAI TTS-1 | 2.8 | 4.18 | 0.62 | $15.00 |

数据洞察： Fish Speech在零API成本下实现了具有竞争力的自然度（MOS 4.31）和可理解性（WER 3.2%），但在两项指标上均落后于ElevenLabs。延迟惩罚（0.85秒 vs 0.45秒）对于批量处理是可以接受的，但如果没有优化，可能会影响实时应用。

开源生态系统： 该项目的GitHub仓库（fishaudio/fish-speech）提供了完整的推理流程、训练脚本和预训练检查点。社区已经贡献了多个扩展，包括一个实时语音变换插件和一个基于WebGPU的浏览器演示。模型权重按照CC BY-NC-SA 4.0许可发布，允许非商业用途和修改。

关键玩家与案例研究

Fish Audio（开发者）： Fish Speech背后的团队是一支位于北京的小型独立研究小组，成员包括前字节跳动和微软研究院的工程师。他们尚未披露具体资金，但该项目由中科院的资助和计划中的商业API收入共同支持。该团队的战略类似于Stability AI：通过发布强大的开源模型建立社区和品牌，然后通过企业授权和云服务实现盈利。

竞争格局： Fish Speech运营在一个快速成熟的市场中。下表比较了开发者和企业相关的关键玩家。

| 特征 | Fish Speech 1.4 | ElevenLabs | OpenAI TTS | Coqui TTS（OSS） |
|---|---|---|---|---|
| 开源 | 是（CC BY-NC-SA） | 否 | 否 | 是（MIT） |
| 零样本克隆 | 是（10-30秒参考） | 是（1分钟参考） | 否 | 有限 |
| 语言 | 7 | 29 | 6 | 10+ |
| 语音库 | 否 | 是（10,000+） | 否 | 否 |
| 实时推理 | 部分（0.85秒） | 是（<0.5秒） | 是（<0.6秒） |

时间归档

延伸阅读

常见问题

GitHub 热点“Fish Speech 1.4: How an Open-Source TTS Model Is Reshaping Voice AI”主要讲了什么？

Fish Speech, developed by the team at Fish Audio, has rapidly emerged as the leading open-source alternative in the text-to-speech (TTS) arena. With over 30,000 GitHub stars and da…

这个 GitHub 项目在“Fish Speech 1.4 vs ElevenLabs Turbo v2 benchmark comparison”上为什么会引发关注？

Fish Speech 1.4 represents a convergence of two dominant paradigms in generative AI: neural audio codecs and autoregressive language models. At its core, the system employs a three-stage pipeline: audio tokenization, lan…

从“How to install Fish Speech locally on Windows with GPU acceleration”看，这个 GitHub 项目的热度表现如何？