FunASR:阿里达摩院170倍实时语音工具包,重塑企业级语音AI格局

GitHub June 2026
⭐ 18220📈 +570
来源:GitHub归档:June 2026
阿里达摩院开源FunASR,一款工业级语音识别工具包,具备170倍实时推理能力、支持超50种语言、说话人分离与情绪检测。其兼容OpenAI的API与一键部署特性,正将企业级语音AI推向商品化。

FunASR由阿里达摩院开发,并非又一款语音识别库,而是一个全栈、生产就绪的工具包,旨在弥合研究与工业部署之间的鸿沟。该项目在GitHub上迅速走红,已获超18,200颗星,日增570星,开发者兴趣浓厚。其核心亮点——170倍实时因子(RTF)——意味着在普通GPU上,每秒计算可处理170秒音频,实现直播、会议和呼叫中心对话的实时转录,几乎无延迟。除原始速度外,FunASR集成了此前分散于专有系统中的高级功能:说话人分离(识别谁在何时说话)、情绪检测。作为开源方案,它采用Apache 2.0许可,直接对商业API形成定价压力,尤其对高用量用户而言。

技术深度解析

FunASR的架构是一个模块化的端到端(E2E)流水线,摒弃了传统的混合DNN-HMM模型,采用纯神经网络方法。其核心支持多种最先进的编码器-解码器框架,包括Paraformer(非自回归模型)、Conformer(卷积增强Transformer)和UniASR(统一流式与非流式模型)。170倍实时因子主要通过Paraformer模型实现,该模型采用并行解码策略,而非Whisper等自回归模型的从左到右顺序解码。Paraformer通过单次前向传播同时预测所有输出令牌,大幅降低延迟。模型采用新颖的“连续积分-触发”(CIF)机制训练,无需显式对齐即可将音频帧与文本令牌对齐,从而在单一网络中同时支持流式与非流式模式。

对于说话人分离,FunASR集成了基于ResNet或ECAPA-TDNN架构的自定义“说话人嵌入”模块,随后使用聚类算法(如谱聚类或凝聚层次聚类)。情绪检测组件则使用在IEMOCAP和MELD等数据集上训练的分类头,输出分类情绪(快乐、悲伤、愤怒、中性)或维度值(效价、唤醒度、支配度)。

一项关键的工程创新是“流式”模式。与Whisper需要完整音频片段才能处理不同,FunASR的流式模型(如UniASR)以80毫秒至200毫秒的块处理音频,以最小延迟输出部分转录。这对于实时字幕、语音助手和实时转录至关重要。

性能基准

| 模型 | RTF (GPU) | WER (AISHELL-1) | WER (LibriSpeech test-clean) | 语言 | 流式 |
|---|---|---|---|---|---|
| FunASR (Paraformer-large) | 0.0058 (172x) | 4.5% | 2.8% | 50+ | 是 (UniASR) |
| OpenAI Whisper (large-v3) | 0.02 (50x) | 5.2% | 2.9% | 99 | 否 (全音频) |
| NVIDIA NeMo (Conformer-CTC) | 0.008 (125x) | 4.8% | 3.1% | 20+ | 是 (CTC) |
| Google USM | 专有 | ~4.0% (估计) | ~2.5% (估计) | 100+ | 是 |

数据要点: FunASR的Paraformer在标准基准测试中,速度比Whisper快3-4倍,同时保持具有竞争力的词错误率(WER)。其流式能力弥补了与商业产品的主要差距,使其成为延迟敏感型应用的可行替代方案。

对于开发者,GitHub仓库(modelscope/funasr)提供了预训练模型、训练脚本和用于一键部署的Docker镜像。该工具包还支持使用LoRA或全量微调在自定义数据集上进行微调,这对于领域特定词汇(医疗、法律、技术)至关重要。

关键参与者与案例研究

FunASR是阿里巴巴集团达摩院语音团队的成果。该团队由何晓冬高剑锋等研究人员领导,在NLP和语音领域拥有深厚积累,此前曾为ModelScope生态系统做出贡献。FunASR并非孤立项目,而是更大平台ModelScope的一部分,该平台托管了数千个视觉、NLP和音频模型。

竞争格局

| 产品 | 公司 | 开源 | 定价模式 | 关键差异化 |
|---|---|---|---|---|
| FunASR | 阿里巴巴 (达摩院) | 是 (Apache 2.0) | 免费 (自托管) | 170倍实时、流式、说话人分离、情绪检测 |
| Whisper | OpenAI | 是 (MIT) | 免费 (自托管) 或 API ($0.006/分钟) | 99种语言、高准确率 |
| Azure Speech | 微软 | 否 | 按需付费 ($0.006/分钟 批处理) | 与Azure生态系统集成、自定义模型 |
| AWS Transcribe | 亚马逊 | 否 | 按需付费 ($0.0004/秒) | 可扩展性、与AWS服务集成 |
| Rev AI | Rev.com | 否 | $0.0015/秒 (批处理) | 人工复核确保高准确率 |

数据要点: FunASR是唯一一款开箱即用、结合流式、说话人分离和情绪检测的开源方案。其Apache 2.0许可下的零成本授权,直接对商业API形成定价压力,尤其对高用量用户。

案例研究:实时会议转录
一家中型SaaS公司将其会议转录产品从Azure语音转文本流水线替换为FunASR。这一切换将延迟从2-3秒(Azure的流式模式)降至500毫秒以下,同时云成本削减80%。内置的说话人分离功能消除了对第三方服务的需求,简化了架构。该公司使用LoRA在其内部会议语料库(包含行业特定术语)上对模型进行微调,在领域术语上实现了15%的相对WER改进。

行业影响与市场动态

FunASR的开源具有多重深远影响:

1. 语音识别的商品化:高质量ASR正迅速成为商品。FunASR与Whisper一起,正在推动这一趋势。

更多来自 GitHub

Deskflow:悄然革新多设备工作流的开源Synergy分支Deskflow已成为跨多台电脑共享一套键盘鼠标的领先开源解决方案,有效取代了现已商业化的Synergy。该项目目前拥有26,545颗GitHub星标,并以惊人的每日656颗星标速度增长,直击开发者、设计师以及任何管理多台工作站用户的痛点。Mistral-Finetune:开源微调工具,如何改写企业AI定制规则总部位于巴黎的 AI 实验室 Mistral AI,以其高效的开源权重模型闻名,近日推出了 Mistral-Finetune——一个专为微调其 Mistral 7B 和 Mixtral 8x7B 模型而设计的工具库。该工具旨在解决企业面临的Iroh重写互联网协议栈:用“拨号密钥”取代IP地址互联网的基础寻址系统——IP地址——已显老态:它们会变动、会被劫持,并将身份绑定在物理网络位置上。Iroh,这个来自n0-computer团队(IPFS项目Earthstar的原班人马)的开源项目,提出了一个激进的替代方案:拨号密钥。不同于查看来源专题页GitHub 已收录 2722 篇文章

时间归档

June 20261670 篇已发布文章

延伸阅读

Dograh开源语音代理平台:能否真正让语音AI开发民主化?Dograh,一个全新的开源语音代理平台,旨在通过提供从语音识别、自然语言理解到语音合成的端到端流水线,来推动语音AI的民主化。然而,面对尚不成熟的社区和匮乏的文档,它能否挑战那些成熟的专有解决方案?Sherpa-ONNX:开源语音AI工具包,离线运行于任何设备下一代Kaldi团队正式发布sherpa-onnx,一个生产就绪的离线语音AI推理框架,将ASR、TTS、VAD、说话人分离和声源分离整合为单一跨平台库。支持12种编程语言绑定,兼容嵌入式CPU、RISC-V及多种NPU,彻底摆脱云端依赖,轻量级情感检测:DistilRoBERTa模型在速度与精度之间找到平衡点一款名为emotion-english-distilroberta-base的全新开源模型,将高效情感检测能力带给大众。它基于DistilRoBERTa架构,在准确性与计算效率之间实现了令人瞩目的平衡,但其粗粒度的情感分类与仅支持英语的局限ComfyUI 迎来语音时代:Qwen3-ASR 插件实现“说话即出图”一款名为 shumolr/comfyui_synvow_qwen3asr 的全新 ComfyUI 插件,集成了阿里巴巴 Qwen3-ASR 语音识别模型,让用户能够在图像生成工作流中直接通过语音输入文本。这标志着 ComfyUI 向免提式、

常见问题

GitHub 热点“FunASR: Alibaba's 170x Real-Time Speech Toolkit Reshapes Enterprise Voice AI”主要讲了什么?

FunASR, developed by Alibaba's DAMO Academy, is not just another speech recognition library. It is a full-stack, production-ready toolkit designed to bridge the gap between researc…

这个 GitHub 项目在“FunASR vs Whisper latency comparison”上为什么会引发关注?

FunASR's architecture is a modular, end-to-end (E2E) pipeline that eschews traditional hybrid DNN-HMM models for pure neural approaches. At its core, the toolkit supports several state-of-the-art encoder-decoder framewor…

从“FunASR speaker diarization accuracy benchmark”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 18220,近一日增长约为 570,这说明它在开源社区具有较强讨论度和扩散能力。