Sherpa-ONNX：开源语音AI工具包，离线运行于任何设备

2026年5月8日 15:08 AINews GitHub May 2026

⭐ 12080📈 +841

下一代Kaldi团队正式发布sherpa-onnx，一个生产就绪的离线语音AI推理框架，将ASR、TTS、VAD、说话人分离和声源分离整合为单一跨平台库。支持12种编程语言绑定，兼容嵌入式CPU、RISC-V及多种NPU，彻底摆脱云端依赖，开启低延迟、高隐私的本地AI新时代。

Sherpa-onnx绝非又一个语音识别库，它是团队对边缘优先AI未来的深思熟虑之赌。由语音处理学术黄金标准Kaldi的缔造者团队开发，sherpa-onnx将数十年研究成果封装进一个基于ONNX Runtime、依赖极简的运行时中。该框架支持令人惊叹的硬件范围：从树莓派和RISC-V微控制器到x86_64服务器，以及日益流行的瑞芯微（RK）、算能（Axera）和华为昇腾NPU。其真正创新在于离线优先设计：每个模型均转换为ONNX格式，推理时无需互联网连接，这对隐私、延迟和运营成本具有深远影响。该项目已在GitHub上累计超过12,000颗星，并持续增长。

技术深度剖析

Sherpa-onnx的架构堪称实用工程学的典范。其核心使用ONNX Runtime作为通用推理引擎，这使得它能够运行来自任何框架（PyTorch、TensorFlow、Kaldi）转换后的模型。这一点至关重要，因为它将模型训练与部署解耦。该框架支持多种声学模型：Zipformer（默认）、Emformer和基于LSTM的模型，均针对ONNX进行了优化。对于语言建模，它可以使用神经网络语言模型（NNLM）或传统的n-gram语言模型，后者在嵌入式场景中尤为轻量。

关键组件：
- ASR流水线： 音频输入 → VAD（Silero VAD或自定义）→ 特征提取（fbank、mfcc）→ 编码器（Zipformer/Emformer）→ 解码器（CTC或RNN-T）→ 可选LM重评分 → 文本输出。
- TTS流水线： 文本 → 字素到音素（G2P）→ 声码器（HiFi-GAN、MB-MelGAN）→ 波形输出。通过说话人嵌入支持多说话人。
- 说话人分离： 使用预训练的说话人嵌入模型（例如基于ResNet的模型）按说话人身份对语音片段进行聚类。
- 声源分离： 实现基于Conv-TasNet和DPRNN的模型，用于分离重叠语音。

工程上的权衡显而易见：通过使用ONNX Runtime，sherpa-onnx牺牲了一定的灵活性（无法轻易插入自定义算子），但获得了极致的可移植性和庞大的硬件后端生态系统。该团队还为ARM CPU和NPU的ONNX Runtime贡献了重要优化，在树莓派4上实现了低至0.1的实时因子。

基准性能（树莓派4上的实时因子，1.8GHz Cortex-A72）：

| 模型 | RTF（实时因子） | 内存（MB） | 备注 |
|---|---|---|---|
| Zipformer-CTC（小） | 0.12 | 45 | LibriSpeech test-clean上WER约95% |
| Zipformer-CTC（中） | 0.28 | 92 | WER约97% |
| Emformer-RNNT（小） | 0.18 | 68 | 流式，80ms延迟 |
| LSTM-CTC（极小） | 0.08 | 22 | WER约88%，适用于微控制器 |

数据要点： 即使是最小的模型，在单板计算机上也能实现低于0.1的RTF，这意味着10秒的音频可在1秒内处理完毕。这使得在35美元的硬件上实现实时对话式AI成为可能。

对于开发者而言，项目的GitHub仓库（k2-fsa/sherpa-onnx）包含所有主要平台的预构建二进制文件，包括Android（.aar）、iOS（.xcframework）以及Linux/Windows/macOS。团队还提供了一个模型库，包含超过200个预训练模型，覆盖英语、中文、日语、韩语、法语、德语、西班牙语等。集成路径文档完善：一个典型的Android应用只需添加一个依赖项和大约50行Kotlin代码即可离线运行ASR。

关键参与者与案例研究

Sherpa-onnx项目由Kaldi团队领导，具体由Daniel Povey（Kaldi的创建者）及其在小米AI实验室的团队负责。这一传承至关重要：Kaldi是学术语音研究的事实标准，而sherpa-onnx代表了从研究到生产的刻意转变。该团队还与微软的ONNX Runtime工程师密切合作，优化了ARM后端。

竞品对比：

| 特性 | sherpa-onnx | Vosk | Coqui TTS | Picovoice |
|---|---|---|---|---|
| 离线ASR | 是 | 是 | 否（仅TTS） | 是 |
| 离线TTS | 是 | 否 | 是 | 否 |
| 说话人分离 | 是 | 否 | 否 | 否 |
| 声源分离 | 是 | 否 | 否 | 否 |
| 硬件支持 | RISC-V、NPU、ARM、x86 | ARM、x86 | x86、ARM | ARM、x86 |
| 语言绑定 | 12 | 5 | 2 | 8 |
| 许可证 | Apache 2.0 | Apache 2.0 | MIT | 专有 |
| 社区规模（GitHub Stars） | 12,000+ | 7,500+ | 3,000+ | 2,000+ |

数据要点： Sherpa-onnx是唯一提供完整离线语音栈（ASR+TTS+VAD+说话人分离+声源分离）的框架，且拥有最广泛的硬件和语言支持。其Apache 2.0许可证和Kaldi血统使其相比Picovoice等专有解决方案具有强大的信任优势。

实际部署案例已经涌现。一家中国智能音箱制造商正在使用sherpa-onnx进行离线唤醒词检测和命令识别，消除了云端延迟。一家医疗健康初创公司将其部署在基于树莓派的设备上，用于无互联网连接的乡村诊所的实时医疗转录。汽车行业也在测试其在隧道或偏远地区工作的车载语音助手。

行业影响与市场动态

据行业估计，语音AI市场预计将从2024年的137亿美元增长到2030年的497亿美元。当前主导模式是云端模式：Amazon Alexa、Google Assistant和Apple Siri均依赖服务器端处理。然而，延迟、隐私担忧和连接需求正在推动向边缘推理的转变。Sherpa-onnx恰好处于捕捉这一转变的完美位置。

市场增长驱动因素：
- 隐私法规： GDPR、CCPA以及中国的《个人信息保护法》（PIPL）

常见问题

GitHub 热点“Sherpa-ONNX: The Open-Source Voice AI Toolkit That Runs Anywhere Offline”主要讲了什么？

Sherpa-onnx is not just another speech recognition library; it is a deliberate bet on the future of edge-first AI. Developed by the team behind Kaldi, the academic gold standard fo…

这个 GitHub 项目在“sherpa-onnx vs whisper.cpp offline speech recognition comparison”上为什么会引发关注？

Sherpa-onnx's architecture is a masterclass in pragmatic engineering. At its core, it uses ONNX Runtime as the universal inference engine, which allows it to run models from any framework (PyTorch, TensorFlow, Kaldi) aft…

从“how to run sherpa-onnx on raspberry pi 5 with rk3588 npu”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 12080，近一日增长约为 841，这说明它在开源社区具有较强讨论度和扩散能力。

Sherpa-ONNX：开源语音AI工具包，离线运行于任何设备

技术深度剖析

关键参与者与案例研究

行业影响与市场动态

更多来自 GitHub

时间归档

延伸阅读

常见问题