Sherpa-ONNX:开源语音AI工具包,离线运行于任何设备

GitHub May 2026
⭐ 12080📈 +841
来源:GitHub归档:May 2026
下一代Kaldi团队正式发布sherpa-onnx,一个生产就绪的离线语音AI推理框架,将ASR、TTS、VAD、说话人分离和声源分离整合为单一跨平台库。支持12种编程语言绑定,兼容嵌入式CPU、RISC-V及多种NPU,彻底摆脱云端依赖,开启低延迟、高隐私的本地AI新时代。

Sherpa-onnx绝非又一个语音识别库,它是团队对边缘优先AI未来的深思熟虑之赌。由语音处理学术黄金标准Kaldi的缔造者团队开发,sherpa-onnx将数十年研究成果封装进一个基于ONNX Runtime、依赖极简的运行时中。该框架支持令人惊叹的硬件范围:从树莓派和RISC-V微控制器到x86_64服务器,以及日益流行的瑞芯微(RK)、算能(Axera)和华为昇腾NPU。其真正创新在于离线优先设计:每个模型均转换为ONNX格式,推理时无需互联网连接,这对隐私、延迟和运营成本具有深远影响。该项目已在GitHub上累计超过12,000颗星,并持续增长。

技术深度剖析

Sherpa-onnx的架构堪称实用工程学的典范。其核心使用ONNX Runtime作为通用推理引擎,这使得它能够运行来自任何框架(PyTorch、TensorFlow、Kaldi)转换后的模型。这一点至关重要,因为它将模型训练与部署解耦。该框架支持多种声学模型:Zipformer(默认)、Emformer和基于LSTM的模型,均针对ONNX进行了优化。对于语言建模,它可以使用神经网络语言模型(NNLM)或传统的n-gram语言模型,后者在嵌入式场景中尤为轻量。

关键组件:
- ASR流水线: 音频输入 → VAD(Silero VAD或自定义)→ 特征提取(fbank、mfcc)→ 编码器(Zipformer/Emformer)→ 解码器(CTC或RNN-T)→ 可选LM重评分 → 文本输出。
- TTS流水线: 文本 → 字素到音素(G2P)→ 声码器(HiFi-GAN、MB-MelGAN)→ 波形输出。通过说话人嵌入支持多说话人。
- 说话人分离: 使用预训练的说话人嵌入模型(例如基于ResNet的模型)按说话人身份对语音片段进行聚类。
- 声源分离: 实现基于Conv-TasNet和DPRNN的模型,用于分离重叠语音。

工程上的权衡显而易见:通过使用ONNX Runtime,sherpa-onnx牺牲了一定的灵活性(无法轻易插入自定义算子),但获得了极致的可移植性和庞大的硬件后端生态系统。该团队还为ARM CPU和NPU的ONNX Runtime贡献了重要优化,在树莓派4上实现了低至0.1的实时因子。

基准性能(树莓派4上的实时因子,1.8GHz Cortex-A72):

| 模型 | RTF(实时因子) | 内存(MB) | 备注 |
|---|---|---|---|
| Zipformer-CTC(小) | 0.12 | 45 | LibriSpeech test-clean上WER约95% |
| Zipformer-CTC(中) | 0.28 | 92 | WER约97% |
| Emformer-RNNT(小) | 0.18 | 68 | 流式,80ms延迟 |
| LSTM-CTC(极小) | 0.08 | 22 | WER约88%,适用于微控制器 |

数据要点: 即使是最小的模型,在单板计算机上也能实现低于0.1的RTF,这意味着10秒的音频可在1秒内处理完毕。这使得在35美元的硬件上实现实时对话式AI成为可能。

对于开发者而言,项目的GitHub仓库(k2-fsa/sherpa-onnx)包含所有主要平台的预构建二进制文件,包括Android(.aar)、iOS(.xcframework)以及Linux/Windows/macOS。团队还提供了一个模型库,包含超过200个预训练模型,覆盖英语、中文、日语、韩语、法语、德语、西班牙语等。集成路径文档完善:一个典型的Android应用只需添加一个依赖项和大约50行Kotlin代码即可离线运行ASR。

关键参与者与案例研究

Sherpa-onnx项目由Kaldi团队领导,具体由Daniel Povey(Kaldi的创建者)及其在小米AI实验室的团队负责。这一传承至关重要:Kaldi是学术语音研究的事实标准,而sherpa-onnx代表了从研究到生产的刻意转变。该团队还与微软的ONNX Runtime工程师密切合作,优化了ARM后端。

竞品对比:

| 特性 | sherpa-onnx | Vosk | Coqui TTS | Picovoice |
|---|---|---|---|---|
| 离线ASR | 是 | 是 | 否(仅TTS) | 是 |
| 离线TTS | 是 | 否 | 是 | 否 |
| 说话人分离 | 是 | 否 | 否 | 否 |
| 声源分离 | 是 | 否 | 否 | 否 |
| 硬件支持 | RISC-V、NPU、ARM、x86 | ARM、x86 | x86、ARM | ARM、x86 |
| 语言绑定 | 12 | 5 | 2 | 8 |
| 许可证 | Apache 2.0 | Apache 2.0 | MIT | 专有 |
| 社区规模(GitHub Stars) | 12,000+ | 7,500+ | 3,000+ | 2,000+ |

数据要点: Sherpa-onnx是唯一提供完整离线语音栈(ASR+TTS+VAD+说话人分离+声源分离)的框架,且拥有最广泛的硬件和语言支持。其Apache 2.0许可证和Kaldi血统使其相比Picovoice等专有解决方案具有强大的信任优势。

实际部署案例已经涌现。一家中国智能音箱制造商正在使用sherpa-onnx进行离线唤醒词检测和命令识别,消除了云端延迟。一家医疗健康初创公司将其部署在基于树莓派的设备上,用于无互联网连接的乡村诊所的实时医疗转录。汽车行业也在测试其在隧道或偏远地区工作的车载语音助手。

行业影响与市场动态

据行业估计,语音AI市场预计将从2024年的137亿美元增长到2030年的497亿美元。当前主导模式是云端模式:Amazon Alexa、Google Assistant和Apple Siri均依赖服务器端处理。然而,延迟、隐私担忧和连接需求正在推动向边缘推理的转变。Sherpa-onnx恰好处于捕捉这一转变的完美位置。

市场增长驱动因素:
- 隐私法规: GDPR、CCPA以及中国的《个人信息保护法》(PIPL)

更多来自 GitHub

Nerfstudio统一NeRF生态:模块化框架大幅降低3D场景重建门槛nerfstudio-project/nerfstudio仓库已迅速成为神经辐射场(NeRF)研发的核心枢纽。凭借超过11500颗GitHub星标,该框架直击一个关键痛点:NeRF实现的碎片化。在Nerfstudio出现之前,从Instan高斯泼溅击碎NeRF速度壁垒:实时3D渲染的新范式graphdeco-inria/gaussian-splatting仓库拥有超过21,800颗星,是Inria一篇突破性论文的官方实现,从根本上重新思考了3D场景的表示与渲染方式。传统的NeRF方法虽然能生成惊艳的新视角,但由于需要沿每条射Mr. Ranedeer AI Tutor:一个提示词,统治所有个性化学习Mr. Ranedeer AI Tutor 是一个专为 GPT-4 设计的开源提示词,能将模型转化为可定制、可交互的智能导师。由用户 jushbjj 创建,该提示词在单一文本块内定义了人格角色(Mr. Ranedeer)、课程结构以及自适应查看来源专题页GitHub 已收录 1718 篇文章

时间归档

May 20261284 篇已发布文章

延伸阅读

Pyannote-Audio:模块化架构重塑复杂现实音频的说话人日志技术Pyannote-Audio已成为开源的标杆性框架,彻底改变了机器理解复杂录音中“谁在何时说话”的方式。其模块化、研究驱动的说话人日志技术为重叠语音场景的准确性设立了新标准,直接挑战商业解决方案,并加速了从媒体到企业通信等各行业的应用进程。Mozilla DeepSpeech:重塑隐私优先AI的开源离线语音识别引擎Mozilla的DeepSpeech项目代表了语音AI领域的一次根本性转向,它通过开源原则,将用户隐私与离线功能置于首位。通过将尖端语音识别技术直接部署在设备端,它正挑战着科技巨头主导的以云为中心的模式。Handy以离线语音识别挑战科技巨头的云端霸权基于OpenAI Whisper构建的开源应用Handy,实现了完全在设备端运行的高质量语音识别,彻底摆脱了对云服务的依赖。这标志着隐私保护型AI工具的重大转向,正挑战着科技巨头主导的、依赖订阅制与数据攫取的传统模式。其在GitHub上的快Nerfstudio统一NeRF生态:模块化框架大幅降低3D场景重建门槛由nerfstudio-project推出的开源框架Nerfstudio,正以模块化、协作友好的管线重塑神经辐射场开发流程。它简化了多种NeRF变体的训练、可视化与部署,让研究人员和开发者都能轻松上手。

常见问题

GitHub 热点“Sherpa-ONNX: The Open-Source Voice AI Toolkit That Runs Anywhere Offline”主要讲了什么?

Sherpa-onnx is not just another speech recognition library; it is a deliberate bet on the future of edge-first AI. Developed by the team behind Kaldi, the academic gold standard fo…

这个 GitHub 项目在“sherpa-onnx vs whisper.cpp offline speech recognition comparison”上为什么会引发关注?

Sherpa-onnx's architecture is a masterclass in pragmatic engineering. At its core, it uses ONNX Runtime as the universal inference engine, which allows it to run models from any framework (PyTorch, TensorFlow, Kaldi) aft…

从“how to run sherpa-onnx on raspberry pi 5 with rk3588 npu”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 12080,近一日增长约为 841,这说明它在开源社区具有较强讨论度和扩散能力。