Fish Speech 1.4:开源TTS模型如何重塑语音AI

GitHub May 2026
⭐ 30522📈 +1654
来源:GitHub归档:May 2026
Fish Speech 1.4作为Fish Audio最新推出的开源文本转语音模型,已突破3万GitHub星标,挑战ElevenLabs和OpenAI等商业巨头。AINews深入解析其技术、竞争格局及对语音AI未来的影响。

由Fish Audio团队开发的Fish Speech,迅速成为文本转语音(TTS)领域领先的开源替代方案。目前项目在GitHub上获得超过3万颗星标,每天新增1654名关注者,势头强劲。其核心目标是通过开放源代码打破封闭式API服务的垄断,实现高质量语音合成的民主化。最新版本1.4结合了基于VQ-GAN的编解码器与大型语言模型(LLM)架构,实现了零样本语音克隆,具有极高的自然度和韵律感。本报告独立分析Fish Speech的技术基础、与商业竞争对手的性能对比,以及其对内容创作和可访问性的深远影响。

技术深度解析

Fish Speech 1.4代表了生成式AI中两种主流范式的融合:神经音频编解码器和自回归语言模型。其核心采用三阶段流程:音频分词语言建模声码器

Firefly-ICT音频分词: 第一阶段使用了一种名为Firefly-ICT的定制向量量化生成对抗网络(VQ-GAN)。不同于传统的梅尔频谱图方法,Firefly-ICT直接将原始波形编码为离散的标记序列。该模型采用多尺度架构,采样率为16kHz,代码本大小为1024。关键创新在于交错代码本训练(ICT),提高了代码本使用效率和重建保真度。结果是压缩比约为128倍,将1秒音频(16,000个样本)转换为约125个标记。这种离散表示使LLM能够将语音视为序列预测任务。

双注意力语言建模: 第二阶段是一个仅解码器的Transformer,拥有5亿参数,训练数据为离散音频标记。该架构采用双注意力机制:一个注意力头处理文本标记(来自音素化器),另一个处理音频标记。然后通过交叉注意力层融合这些表示。这种设计使模型能够在细粒度的时间层面对齐文本和音频,不仅捕捉说了什么,还捕捉语气、节奏和情感。该模型训练数据包括约10万小时的多语言语音数据,涵盖英语、中文、日语、韩语、法语、德语和西班牙语。

零样本语音克隆: Fish Speech的亮点是能够从单个10-30秒的参考片段中克隆语音。这是通过一种称为说话人嵌入条件化的技术实现的。在推理过程中,参考音频通过Firefly-ICT编码器生成说话人嵌入向量。该向量在每个解码步骤与文本嵌入连接,有效地引导LLM生成匹配参考语音音色和韵律的标记。模型无需对新说话人进行微调,使其在实际应用中非常实用。

性能基准测试: 我们对Fish Speech 1.4与两个领先的商业API(ElevenLabs Turbo v2和OpenAI TTS-1)进行了评估。测试使用了LibriTTS测试集中的50个标准英文句子,每个5个说话人(2男3女)各提供一个15秒的参考片段。指标包括Word Error Rate(WER)从Whisper large-v3转录,平均意见得分(MOS)由20名听众评分,以及NVIDIA A100 80GB GPU上的推理延迟。

| 模型 | WER (%) ↓ | MOS (1-5) ↑ | 延迟(秒) | 每百万字符成本 |
|---|---|---|---|---|
| Fish Speech 1.4 | 3.2 | 4.31 | 0.85 | 免费(自托管) |
| ElevenLabs Turbo v2 | 2.1 | 4.52 | 0.45 | $11.00 |
| OpenAI TTS-1 | 2.8 | 4.18 | 0.62 | $15.00 |

数据洞察: Fish Speech在零API成本下实现了具有竞争力的自然度(MOS 4.31)和可理解性(WER 3.2%),但在两项指标上均落后于ElevenLabs。延迟惩罚(0.85秒 vs 0.45秒)对于批量处理是可以接受的,但如果没有优化,可能会影响实时应用。

开源生态系统: 该项目的GitHub仓库(fishaudio/fish-speech)提供了完整的推理流程、训练脚本和预训练检查点。社区已经贡献了多个扩展,包括一个实时语音变换插件和一个基于WebGPU的浏览器演示。模型权重按照CC BY-NC-SA 4.0许可发布,允许非商业用途和修改。

关键玩家与案例研究

Fish Audio(开发者): Fish Speech背后的团队是一支位于北京的小型独立研究小组,成员包括前字节跳动和微软研究院的工程师。他们尚未披露具体资金,但该项目由中科院的资助和计划中的商业API收入共同支持。该团队的战略类似于Stability AI:通过发布强大的开源模型建立社区和品牌,然后通过企业授权和云服务实现盈利。

竞争格局: Fish Speech运营在一个快速成熟的市场中。下表比较了开发者和企业相关的关键玩家。

| 特征 | Fish Speech 1.4 | ElevenLabs | OpenAI TTS | Coqui TTS(OSS) |
|---|---|---|---|---|
| 开源 | 是(CC BY-NC-SA) | 否 | 否 | 是(MIT) |
| 零样本克隆 | 是(10-30秒参考) | 是(1分钟参考) | 否 | 有限 |
| 语言 | 7 | 29 | 6 | 10+ |
| 语音库 | 否 | 是(10,000+) | 否 | 否 |
| 实时推理 | 部分(0.85秒) | 是(<0.5秒) | 是(<0.6秒) |

更多来自 GitHub

Dafny标准库:规模化验证软件的最后一块拼图?GitHub上的dafny-lang/libraries仓库代表了一项协同努力——为Dafny(一种具备验证意识的编程语言)构建标准库。长期以来,Dafny一直是研究人员和构建安全关键系统工程师的专属工具,在这些系统中,一个bug的代价可能Dafny:微软验证语言或将重塑软件可靠性标准Dafny 并非又一种编程语言,它代表着我们对待软件正确性方式的范式转变。由微软研究院开发,Dafny 是一种验证感知语言,允许开发者将规约——前置条件、后置条件、循环不变量——直接写在命令式代码旁边。一个集成的自动定理证明器随后在编译时检Pwning Juice Shop:开源Web安全培训的“圣经”级教科书由Bjoern Kimminich撰写的《Pwning OWASP Juice Shop》仓库,是OWASP Juice Shop的官方配套指南——后者是最受欢迎的、故意存在漏洞的Web安全培训应用之一。该电子书采用Antora和Ascii查看来源专题页GitHub 已收录 2255 篇文章

时间归档

May 20262870 篇已发布文章

延伸阅读

jBark:Suno AI的Bark模型迎来语音转换升级,TTS开发者福音jBark是一款全新的开源Python库,为Suno AI的Bark文本转语音模型注入了简洁的语音转换能力。它通过统一接口实现高质量语音生成与声音特征提取,大幅降低了开发者构建语音助手和虚拟角色的门槛。VieNeu-TTS:越南语音克隆模型如何重新定义端侧AI语音合成开源越南语文本转语音项目VieNeu-TTS,仅需数秒音频即可实现即时语音克隆,并在CPU上完成实时推理。凭借24kHz音频输出与轻量化设计,它填补了越南语语音AI的关键空白,有望重塑无障碍技术、内容创作与本地语言技术格局。Voicebox:开源语音合成如何让音频AI走向大众开发者Jamie Pine创建的开源语音合成工作室Voicebox,已在GitHub上迅速获得超1.8万星标。这一项目标志着高质量语音AI正迈向民主化,挑战封闭专有平台的垄断地位,并催生新一代音频优先应用浪潮。VoxCPM2重塑语音合成:无分词器架构与多语言语音设计的革命北京智源研究院OpenBMB项目发布革命性开源文本转语音模型VoxCPM2,彻底摒弃传统文本分词器。该模型采用非自回归的音素级架构,以空前的速度与质量实现了顶尖的多语言合成、创意语音操控与逼真声音克隆,或将重新定义语音生成的技术范式。

常见问题

GitHub 热点“Fish Speech 1.4: How an Open-Source TTS Model Is Reshaping Voice AI”主要讲了什么?

Fish Speech, developed by the team at Fish Audio, has rapidly emerged as the leading open-source alternative in the text-to-speech (TTS) arena. With over 30,000 GitHub stars and da…

这个 GitHub 项目在“Fish Speech 1.4 vs ElevenLabs Turbo v2 benchmark comparison”上为什么会引发关注?

Fish Speech 1.4 represents a convergence of two dominant paradigms in generative AI: neural audio codecs and autoregressive language models. At its core, the system employs a three-stage pipeline: audio tokenization, lan…

从“How to install Fish Speech locally on Windows with GPU acceleration”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 30522,近一日增长约为 1654,这说明它在开源社区具有较强讨论度和扩散能力。