Sherpa-ONNX:开源语音AI工具包,离线运行于任何设备

GitHub May 2026
⭐ 12080📈 +841
来源:GitHub归档:May 2026
下一代Kaldi团队正式发布sherpa-onnx,一个生产就绪的离线语音AI推理框架,将ASR、TTS、VAD、说话人分离和声源分离整合为单一跨平台库。支持12种编程语言绑定,兼容嵌入式CPU、RISC-V及多种NPU,彻底摆脱云端依赖,开启低延迟、高隐私的本地AI新时代。

Sherpa-onnx绝非又一个语音识别库,它是团队对边缘优先AI未来的深思熟虑之赌。由语音处理学术黄金标准Kaldi的缔造者团队开发,sherpa-onnx将数十年研究成果封装进一个基于ONNX Runtime、依赖极简的运行时中。该框架支持令人惊叹的硬件范围:从树莓派和RISC-V微控制器到x86_64服务器,以及日益流行的瑞芯微(RK)、算能(Axera)和华为昇腾NPU。其真正创新在于离线优先设计:每个模型均转换为ONNX格式,推理时无需互联网连接,这对隐私、延迟和运营成本具有深远影响。该项目已在GitHub上累计超过12,000颗星,并持续增长。

技术深度剖析

Sherpa-onnx的架构堪称实用工程学的典范。其核心使用ONNX Runtime作为通用推理引擎,这使得它能够运行来自任何框架(PyTorch、TensorFlow、Kaldi)转换后的模型。这一点至关重要,因为它将模型训练与部署解耦。该框架支持多种声学模型:Zipformer(默认)、Emformer和基于LSTM的模型,均针对ONNX进行了优化。对于语言建模,它可以使用神经网络语言模型(NNLM)或传统的n-gram语言模型,后者在嵌入式场景中尤为轻量。

关键组件:
- ASR流水线: 音频输入 → VAD(Silero VAD或自定义)→ 特征提取(fbank、mfcc)→ 编码器(Zipformer/Emformer)→ 解码器(CTC或RNN-T)→ 可选LM重评分 → 文本输出。
- TTS流水线: 文本 → 字素到音素(G2P)→ 声码器(HiFi-GAN、MB-MelGAN)→ 波形输出。通过说话人嵌入支持多说话人。
- 说话人分离: 使用预训练的说话人嵌入模型(例如基于ResNet的模型)按说话人身份对语音片段进行聚类。
- 声源分离: 实现基于Conv-TasNet和DPRNN的模型,用于分离重叠语音。

工程上的权衡显而易见:通过使用ONNX Runtime,sherpa-onnx牺牲了一定的灵活性(无法轻易插入自定义算子),但获得了极致的可移植性和庞大的硬件后端生态系统。该团队还为ARM CPU和NPU的ONNX Runtime贡献了重要优化,在树莓派4上实现了低至0.1的实时因子。

基准性能(树莓派4上的实时因子,1.8GHz Cortex-A72):

| 模型 | RTF(实时因子) | 内存(MB) | 备注 |
|---|---|---|---|
| Zipformer-CTC(小) | 0.12 | 45 | LibriSpeech test-clean上WER约95% |
| Zipformer-CTC(中) | 0.28 | 92 | WER约97% |
| Emformer-RNNT(小) | 0.18 | 68 | 流式,80ms延迟 |
| LSTM-CTC(极小) | 0.08 | 22 | WER约88%,适用于微控制器 |

数据要点: 即使是最小的模型,在单板计算机上也能实现低于0.1的RTF,这意味着10秒的音频可在1秒内处理完毕。这使得在35美元的硬件上实现实时对话式AI成为可能。

对于开发者而言,项目的GitHub仓库(k2-fsa/sherpa-onnx)包含所有主要平台的预构建二进制文件,包括Android(.aar)、iOS(.xcframework)以及Linux/Windows/macOS。团队还提供了一个模型库,包含超过200个预训练模型,覆盖英语、中文、日语、韩语、法语、德语、西班牙语等。集成路径文档完善:一个典型的Android应用只需添加一个依赖项和大约50行Kotlin代码即可离线运行ASR。

关键参与者与案例研究

Sherpa-onnx项目由Kaldi团队领导,具体由Daniel Povey(Kaldi的创建者)及其在小米AI实验室的团队负责。这一传承至关重要:Kaldi是学术语音研究的事实标准,而sherpa-onnx代表了从研究到生产的刻意转变。该团队还与微软的ONNX Runtime工程师密切合作,优化了ARM后端。

竞品对比:

| 特性 | sherpa-onnx | Vosk | Coqui TTS | Picovoice |
|---|---|---|---|---|
| 离线ASR | 是 | 是 | 否(仅TTS) | 是 |
| 离线TTS | 是 | 否 | 是 | 否 |
| 说话人分离 | 是 | 否 | 否 | 否 |
| 声源分离 | 是 | 否 | 否 | 否 |
| 硬件支持 | RISC-V、NPU、ARM、x86 | ARM、x86 | x86、ARM | ARM、x86 |
| 语言绑定 | 12 | 5 | 2 | 8 |
| 许可证 | Apache 2.0 | Apache 2.0 | MIT | 专有 |
| 社区规模(GitHub Stars) | 12,000+ | 7,500+ | 3,000+ | 2,000+ |

数据要点: Sherpa-onnx是唯一提供完整离线语音栈(ASR+TTS+VAD+说话人分离+声源分离)的框架,且拥有最广泛的硬件和语言支持。其Apache 2.0许可证和Kaldi血统使其相比Picovoice等专有解决方案具有强大的信任优势。

实际部署案例已经涌现。一家中国智能音箱制造商正在使用sherpa-onnx进行离线唤醒词检测和命令识别,消除了云端延迟。一家医疗健康初创公司将其部署在基于树莓派的设备上,用于无互联网连接的乡村诊所的实时医疗转录。汽车行业也在测试其在隧道或偏远地区工作的车载语音助手。

行业影响与市场动态

据行业估计,语音AI市场预计将从2024年的137亿美元增长到2030年的497亿美元。当前主导模式是云端模式:Amazon Alexa、Google Assistant和Apple Siri均依赖服务器端处理。然而,延迟、隐私担忧和连接需求正在推动向边缘推理的转变。Sherpa-onnx恰好处于捕捉这一转变的完美位置。

市场增长驱动因素:
- 隐私法规: GDPR、CCPA以及中国的《个人信息保护法》(PIPL)

更多来自 GitHub

Distilabel:架起研究与生产桥梁的合成数据管道Distilabel 由 Argilla 团队开发,是一个用于构建快速、可靠且可扩展的合成数据生成与 AI 反馈管道的 Python 框架。它将来自同行评审论文的方法论(如 Self-Instruct、UltraFeedback 和 Con开源SEO工具Open SEO横空出世,免费自托管挑战Ahrefs与Semrush垄断Open SEO,一个在GitHub上全新发布的开源项目,通过将自己定位为商业SEO巨头Semrush和Ahrefs的免费、自托管替代方案,迅速积累了超过3600个星标。该工具提供核心功能,包括关键词研究、反向链接分析、网站审计和竞争对手追S-UI Web面板单日狂揽9300星:Sing-Box管理迎来现代化图形界面S-UI(alireza0/s-ui)是一款专为Sing-Box代理核心设计的高级Web管理面板,而Sing-Box本身是SagerNet项目的继任者。在长期由命令行配置和零散第三方工具主导的领域,S-UI提供了一套统一、现代的图形用户界面查看来源专题页GitHub 已收录 3132 篇文章

时间归档

May 20263028 篇已发布文章

延伸阅读

Rust语音识别新突破:Sherpa-rs兼顾性能与隐私一款基于Rust语言的语音识别库Sherpa-rs,通过绑定sherpa-onnx引擎,实现了低延迟、全隐私的本地转录。它利用Rust的内存安全特性和ONNX Runtime的跨平台推理能力,填补了嵌入式与桌面应用中Rust生态的关键空白。RapidOCR 狂揽 6900+ Star:重塑文档 AI 的跨平台 OCR 工具包开源 OCR 工具包 RapidOCR 单日 GitHub Star 数飙升至 6917,支持 ONNX Runtime、OpenVINO、MNN、PaddlePaddle、TensorRT 和 PyTorch 六大推理后端。AINews DeepSparse:让GPU不再是AI推理必备的CPU推理引擎Neural Magic 推出的 DeepSparse 运行时,通过利用模型稀疏性,在普通 CPU 上实现了媲美 GPU 的推理速度。结合结构化剪枝、量化与自定义稀疏矩阵引擎,它在边缘和云端部署中大幅降低了 NLP 与视觉模型的成本与延迟。FunASR:阿里达摩院170倍实时语音工具包,重塑企业级语音AI格局阿里达摩院开源FunASR,一款工业级语音识别工具包,具备170倍实时推理能力、支持超50种语言、说话人分离与情绪检测。其兼容OpenAI的API与一键部署特性,正将企业级语音AI推向商品化。

常见问题

GitHub 热点“Sherpa-ONNX: The Open-Source Voice AI Toolkit That Runs Anywhere Offline”主要讲了什么?

Sherpa-onnx is not just another speech recognition library; it is a deliberate bet on the future of edge-first AI. Developed by the team behind Kaldi, the academic gold standard fo…

这个 GitHub 项目在“sherpa-onnx vs whisper.cpp offline speech recognition comparison”上为什么会引发关注?

Sherpa-onnx's architecture is a masterclass in pragmatic engineering. At its core, it uses ONNX Runtime as the universal inference engine, which allows it to run models from any framework (PyTorch, TensorFlow, Kaldi) aft…

从“how to run sherpa-onnx on raspberry pi 5 with rk3588 npu”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 12080,近一日增长约为 841,这说明它在开源社区具有较强讨论度和扩散能力。