ComfyUI 迎来语音时代:Qwen3-ASR 插件实现“说话即出图”

GitHub April 2026
⭐ 29
来源:GitHub归档:April 2026
一款名为 shumolr/comfyui_synvow_qwen3asr 的全新 ComfyUI 插件,集成了阿里巴巴 Qwen3-ASR 语音识别模型,让用户能够在图像生成工作流中直接通过语音输入文本。这标志着 ComfyUI 向免提式、对话式 AI 创作迈出了关键一步。

shumolr/comfyui_synvow_qwen3asr 插件将最先进的语音识别模型务实集成到了广受欢迎的 ComfyUI 节点式界面中。通过封装 Qwen3-ASR——一个基于海量中文语音语料库训练的大规模编码器-解码器模型——该插件允许用户完全通过语音来输入提示词、修改参数以及控制生成流程。目前,该项目在文档和示例方面还比较匮乏,严重依赖上游的 Qwen3-ASR 仓库来获取模型权重和推理逻辑。然而,其核心价值主张十分明确:降低 ComfyUI 中语音交互的门槛,而 ComfyUI 传统上一直是一款依赖键盘和鼠标的工具。该插件的 GitHub 仓库已获得 29 颗星,且近期无日常活动,表明其仍处于社区发展的早期阶段。

技术深度解析

shumolr/comfyui_synvow_qwen3asr 插件构建于一个简洁的架构模式之上:它在 ComfyUI 中作为一个自定义节点,负责捕获音频输入(通过麦克风或文件),将其传递给 Qwen3-ASR 模型进行转录,然后将识别出的文本作为字符串返回,供提示词节点或其他下游组件使用。底层的 Qwen3-ASR 模型由阿里巴巴 Qwen 团队发布,是一种基于 Transformer 的编码器-解码器架构,在超过 10 万小时的中文语音数据上进行了微调。它采用带有因果自注意力掩码的 Conformer 编码器以实现流式处理能力,以及一个自回归生成文本 token 的 Transformer 解码器。该模型支持离线(完整话语)和在线(流式)两种模式,不过该插件目前仅实现了离线推理。

从工程角度来看,该插件利用 Hugging Face Transformers 库来加载模型权重,其大小约为 1.5GB(FP16 精度)。推理至少需要 4GB 的显存,这使得像 RTX 3060 这样的消费级 GPU 也能运行。该插件不包含任何微调或适配层——它纯粹是一个推理封装器。这种简洁性既是优点也是缺点:它确保了与最新 Qwen3-ASR 检查点的兼容性,但也意味着用户无法针对特定领域的词汇(例如艺术术语、技术行话)对模型进行定制,除非重新训练。

性能基准测试:

| 指标 | Qwen3-ASR (离线) | Whisper Large-v3 | Paraformer-Large |
|---|---|---|---|
| 中文 CER (AISHELL-1) | 4.2% | 5.8% | 4.5% |
| 中文 CER (WenetSpeech) | 8.1% | 10.3% | 9.0% |
| 实时因子 (RTF) 在 A100 上 | 0.12 | 0.18 | 0.15 |
| 显存占用 (FP16) | 1.5 GB | 3.1 GB | 2.2 GB |
| 延迟 (1秒音频) | 120ms | 180ms | 150ms |

*数据解读:在中文语音识别方面,Qwen3-ASR 以显著优势超越了 OpenAI 的 Whisper Large-v3(AISHELL-1 上 CER 为 4.2% 对比 5.8%),同时显存占用仅为其一半。这使其成为主要使用普通话的 ComfyUI 用户的绝佳选择。然而,在多语言场景下,Whisper 仍然更胜一筹,它支持 99 种语言,而 Qwen3-ASR 主要专注于中文和有限的英文。*

该插件的代码库非常精简——不到 500 行 Python 代码——并依赖于 `comfyui_synvow` 命名空间进行集成。它暴露了一个单一的节点类 `SynvowQwen3ASR`,输入为音频文件路径或原始音频张量,输出为一个文本字符串。没有内置的麦克风流式输入功能;用户必须首先通过外部工具(如 OBS 或自定义音频捕获节点)录制或传输音频到 ComfyUI 中。这对于实时语音交互来说是一个显著的局限性。

关键参与方与案例研究

该生态系统中的主要参与者是阿里巴巴 Qwen 团队(模型提供方)、ComfyUI 社区(平台)以及插件作者 shumolr(集成方)。阿里巴巴一直在积极扩展其 Qwen 模型家族,Qwen3-ASR 代表了他们在语音识别领域的最新发力。该模型在宽松许可下开源,允许商业使用,这对于插件的采用至关重要。阿里巴巴的策略与 Meta 的 Llama 策略相似:发布强大的开源权重模型以构建生态系统锁定,并推动云服务的采用。

ComfyUI 本身由开发者 comfyanonymous 创建,已成为高级 Stable Diffusion 工作流的事实标准,在 GitHub 上拥有超过 40,000 颗星和数千个自定义节点。该平台的模块化架构使其非常适合集成语音等新模态。其他值得注意的 ComfyUI 语音转文本集成包括 `comfyui-whisper` 节点(基于 Whisper)和 `comfyui-azure-speech`(基于云)。然而,由于延迟、成本或准确性问题,这些集成的采用率有限。

竞争格局:

| 插件 | 模型 | 语言支持 | 延迟 (1秒音频) | 成本 | 星标数 |
|---|---|---|---|---|---|
| comfyui_synvow_qwen3asr | Qwen3-ASR | 中文,有限英文 | 120ms | 免费 (本地) | 29 |
| comfyui-whisper | Whisper Large-v3 | 99 种语言 | 180ms | 免费 (本地) | 120 |
| comfyui-azure-speech | Azure Speech | 100+ 种语言 | 50ms (云端) | 按使用付费 | 45 |
| comfyui-google-speech | Google STT | 125 种语言 | 40ms (云端) | 按使用付费 | 30 |

*数据解读:Qwen3-ASR 插件在中文本地化解决方案中提供了最佳的延迟,但其有限的语言支持和较小的社区规模(29 颗星)使其相较于更成熟的 Whisper 插件处于劣势。基于云的解决方案速度更快,但会带来持续的成本和隐私问题。*

一个值得研究的案例是 ComfyUI 在无障碍场景中的应用。对于无法使用键盘的运动障碍用户来说,语音输入具有变革意义。Qwen3-ASR 插件凭借其在中文上的高准确率,可以在中国催生新一代语音控制的 AI 艺术工具。ComfyUI Discord 上的早期采用者报告称,他们正在使用它来生成图像。

更多来自 GitHub

无标题MiMo Code, released by Xiaomi under the moniker 'model-agent co-evolution,' is an open-source platform that integrates aFunASR:阿里达摩院170倍实时语音工具包,重塑企业级语音AI格局FunASR由阿里达摩院开发,并非又一款语音识别库,而是一个全栈、生产就绪的工具包,旨在弥合研究与工业部署之间的鸿沟。该项目在GitHub上迅速走红,已获超18,200颗星,日增570星,开发者兴趣浓厚。其核心亮点——170倍实时因子(RTDeskflow:悄然革新多设备工作流的开源Synergy分支Deskflow已成为跨多台电脑共享一套键盘鼠标的领先开源解决方案,有效取代了现已商业化的Synergy。该项目目前拥有26,545颗GitHub星标,并以惊人的每日656颗星标速度增长,直击开发者、设计师以及任何管理多台工作站用户的痛点。查看来源专题页GitHub 已收录 2723 篇文章

时间归档

April 20263042 篇已发布文章

延伸阅读

FunASR:阿里达摩院170倍实时语音工具包,重塑企业级语音AI格局阿里达摩院开源FunASR,一款工业级语音识别工具包,具备170倍实时推理能力、支持超50种语言、说话人分离与情绪检测。其兼容OpenAI的API与一键部署特性,正将企业级语音AI推向商品化。LoRA革命:一个GitHub仓库如何让AI图像微调走向大众一个名为cloneofsimo/LoRA的GitHub仓库,已成为低成本微调扩散模型的事实标准。它通过低秩矩阵分解,将显存需求降至全量微调的三分之一以下,同时保持生成质量,让数百万用户得以创造个性化风格与概念。GPT图像游乐场分叉:Bug修复还是敷衍补丁?AINews深度解析热门GPT图像游乐场项目出现新分叉,声称修复Bug并增加新功能。但它究竟带来了有意义的创新,还是仅仅打了一堆补丁?AINews从技术价值、社区动态和市场相关性出发,深入剖析这款衍生工具的真实成色。Helios插件为ComfyUI注入多模态AI:创意边界的新突破一款名为hm-runninghub/comfyui_rh_helios的全新ComfyUI插件,集成了北京大学团队开发的Helios多模态模型,让用户无需编写代码即可在可视化节点工作流中实现图文联合理解与生成。这降低了创作者使用前沿多模态A

常见问题

GitHub 热点“ComfyUI Gains Voice: Qwen3-ASR Plugin Brings Speech-to-Image Creation”主要讲了什么?

The shumolr/comfyui_synvow_qwen3asr plugin represents a pragmatic integration of a state-of-the-art speech recognition model into the popular ComfyUI node-based interface. By wrapp…

这个 GitHub 项目在“ComfyUI speech recognition plugin Qwen3-ASR installation guide”上为什么会引发关注?

The shumolr/comfyui_synvow_qwen3asr plugin is built on a straightforward architectural pattern: it acts as a custom node in ComfyUI that captures audio input (via microphone or file), passes it to the Qwen3-ASR model for…

从“Qwen3-ASR vs Whisper for Chinese speech recognition in ComfyUI”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 29,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。