Helios插件为ComfyUI注入多模态AI：创意边界的新突破

2026年6月5日 12:33 AINews GitHub June 2026

⭐ 4

来源：GitHub multimodal AI 归档：June 2026

一款名为hm-runninghub/comfyui_rh_helios的全新ComfyUI插件，集成了北京大学团队开发的Helios多模态模型，让用户无需编写代码即可在可视化节点工作流中实现图文联合理解与生成。这降低了创作者使用前沿多模态AI的门槛，但也引发了模型可用性与硬件需求的讨论。

开源社区一直期待能将多模态模型——那些既能理解图像又能生成图像的AI——无缝融入流行的ComfyUI可视化工作流。hm-runninghub/comfyui_rh_helios插件的发布，直接填补了这一空白。该插件基于北京大学团队开发的Helios模型，Helios是一种多模态大语言模型，支持图像描述、视觉问答和条件图像生成等任务。通过将Helios封装进ComfyUI的节点式界面，艺术家、设计师和研究人员无需编写一行代码，即可构建融合文本提示、图像输入与多模态推理的复杂管线。这对ComfyUI而言是重要一步——该平台此前主要聚焦于扩散模型，如今正迈向更广阔的AI创意领域。

技术深度解析

Helios模型由北京大学团队开发，是一种多模态大语言模型，在单一框架内统一了图像理解与生成能力。与早期将独立视觉和语言模型串联的方法不同，Helios使用共享的Transformer主干处理两种模态，实现联合推理。模型架构基于视觉编码器（通常为ViT变体）提取视觉特征，再通过可学习的适配器将其投影到语言模型的嵌入空间。语言模型组件为仅解码器Transformer，类似LLaMA或Qwen架构，并在多模态指令遵循数据上进行了微调。在生成任务中，Helios可根据文本和可选的参考图像生成图像，具体使用扩散头或离散分词器（取决于变体）。

ComfyUI插件hm-runninghub/comfyui_rh_helios提供了封装Helios推理管线的自定义节点。用户可以加载模型、传入图像和文本提示，并接收生成的图像或文本输出。插件处理模型加载、分词和推理，暴露了温度、top-k和图像分辨率等参数，并支持批处理以提高效率。

基准性能对比（Helios vs. 竞品）

| 模型 | MMLU（文本） | VQA v2（准确率） | 图像描述（CIDEr） | 参数量 |
|---|---|---|---|---|
| Helios (7B) | 64.2 | 78.5 | 138.4 | ~7B |
| LLaVA-1.5 (7B) | 63.8 | 78.1 | 136.7 | ~7B |
| Qwen-VL (7B) | 62.5 | 76.9 | 132.1 | ~7B |
| GPT-4V（专有） | 86.4 | 81.2 | 145.3 | 未知 |

*数据解读：Helios在开源竞品中表现强劲，在VQA和图像描述上略胜LLaVA和Qwen-VL，但在文本推理（MMLU）上仍显著落后于GPT-4V等专有模型。这表明Helios是优秀的开源选择，但尚未达到GPT-4V的统治级水平。*

从工程角度看，插件的主要挑战是内存管理。Helios 7B变体在FP16精度下至少需要16GB显存，更大变体则需要24GB以上。插件尝试通过模型量化（如8位或4位）进行优化，但这可能降低输出质量。插件的GitHub仓库较为基础，文档稀少，除简单节点设置外缺乏示例，这对非技术用户构成障碍。

关键参与者与案例研究

主要参与者包括北京大学团队（Helios的学术开发方）和插件开发者hm-runninghub。北京大学团队以Yuan系列LLM等开源项目闻名，通常以宽松许可证（如Apache 2.0）发布模型。然而，Helios的具体许可证在插件仓库中未明确说明，这可能阻碍其采用。

ComfyUI生态中的竞品方案

| 插件/集成 | 模型 | 模态 | 易用性 | 硬件要求 |
|---|---|---|---|---|
| comfyui_rh_helios | Helios | 图像+文本 | 中等（节点） | 16GB+显存 |
| ComfyUI-LLaVA | LLaVA | 图像+文本 | 中等 | 12GB+显存 |
| ComfyUI-Blip | BLIP-2 | 图像描述 | 高 | 8GB+显存 |
| ComfyUI-ControlNet | ControlNet | 图像条件控制 | 高 | 6GB+显存 |

*数据解读：Helios插件是首个将统一多模态理解+生成模型引入ComfyUI的方案，但面临更轻量插件的竞争，如ComfyUI-LLaVA（仅理解）和ComfyUI-Blip（仅描述）。在纯生成方面，ComfyUI已有强大的扩散模型支持。Helios插件的价值在于将两项任务合并到一个模型中，降低了管线复杂度。*

案例研究：一位使用ComfyUI进行概念设计的数字艺术家，此前可能需要先用BLIP节点为输入草图生成描述，再将描述输入Stable Diffusion节点生成变体。使用Helios后，他们可以在单个节点中完成这两步，甚至要求模型“生成一张猫坐在椅子上的图像，但让椅子变成参考图中的红色”——这需要联合理解与生成能力。这是真正的工作流改进。

行业影响与市场动态

Helios集成进ComfyUI标志着一个更广泛的趋势：多模态AI与可视化编程环境的融合。ComfyUI最初是Stable Diffusion爱好者的工具，如今已发展成拥有超过5万月活用户和活跃节点生态的平台。多模态能力的加入，使其能够与Adobe Firefly或Midjourney等更封闭的平台竞争——后者虽提供多模态功能，但缺乏开放、可定制的工作流。

多模态AI工具市场增长

| 年份 | 全球市场规模（美元） | 复合年增长率 | 关键驱动因素 |
|---|---|---|---|
| 2023 | 12亿 | — | 设计、游戏领域早期采用 |
| 2024 | 25亿 | 108% | 开源模型发布 |
| 2025（预估） | 50亿 | 100% | 企业级应用扩展 |

*数据解读：多模态AI工具市场正经历爆发式增长，开源模型的普及是核心驱动力。Helios插件作为这一趋势的产物，有望加速ComfyUI从专业工具向通用创意平台的转型。*

编辑观点

Helios插件的发布是ComfyUI生态的重要里程碑，但并非没有隐忧。首先，硬件门槛将许多创作者拒之门外——16GB显存的要求远超普通消费级GPU。其次，插件文档和示例的匮乏，与ComfyUI“降低AI使用门槛”的初衷相悖。最后，Helios模型本身在文本推理上的短板，意味着它更适合视觉创意任务，而非通用AI助手。

尽管如此，这一整合的方向值得肯定。多模态AI与可视化编程的结合，正在重塑创意工作流。对于愿意投入硬件成本并具备一定技术背景的用户，Helios插件提供了前所未有的能力：在一个节点中完成从理解到生成的完整闭环。未来，随着模型量化技术的进步和社区贡献的丰富，这类工具将变得更加易用和普及。

时间归档

常见问题

GitHub 热点“Helios Plugin Brings Multimodal AI to ComfyUI: A New Creative Frontier”主要讲了什么？

The open-source community has long awaited a seamless way to incorporate multimodal models—those that can both understand and generate images alongside text—into the popular ComfyU…

这个 GitHub 项目在“How to install comfyui_rh_helios plugin step by step”上为什么会引发关注？

The Helios model, developed by PKU-YuanGroup, is a multimodal large language model (MLLM) that unifies image understanding and generation within a single framework. Unlike earlier approaches that chain separate vision an…

从“Helios vs LLaVA for ComfyUI multimodal tasks”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 4，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。