Karlo 开源扩散模型挑战 DALL·E 2：Kakao Brain 的 Transformer 架构革新文本生成图像

2026年6月19日 12:10 AINews GitHub June 2026

⭐ 698

来源：GitHub open-source AI 归档：June 2026

Kakao Brain 发布开源文本生成图像扩散模型 Karlo，融合改进的 Transformer 骨干网络与 CLIP 引导级联扩散，图像质量媲美 DALL·E 2。完整开源代码库为研究人员和开发者提供了可复现的基线，标志着高质量文本生成图像民主化的重要里程碑。

Karlo 由 Kakao Brain 开发，代表了高质量文本生成图像民主化进程中的关键里程碑。与许多保护训练流程的专有系统不同，Karlo 发布了完整的训练和推理代码，使研究社区能够复现并在此基础上进行构建。该模型在级联扩散框架内利用改进的 Transformer 架构——首先生成低分辨率图像，然后通过专门的超分辨率模块逐步放大。CLIP 引导技术将扩散过程导向与文本对齐的输出，这一技术由 OpenAI 的 DALL·E 2 推广。在内部基准测试中，Karlo 在 MS-COCO 上的 FID 分数和零样本 CLIP 分数均接近 DALL·E 2，同时参数更少。Karlo 的完全开源特性使其成为研究社区中最完整的基线模型，提供了从数据预处理到预训练检查点的全套工具。

技术深度解析

Karlo 的架构是高效扩散设计的典范。其核心采用级联扩散管道：基础扩散模型生成 64x64 图像，随后两个超分辨率阶段将图像放大至 256x256，最终达到 1024x1024。每个阶段均使用 U-Net 骨干网络，但有一个关键创新——基础模型将标准 ResNet 模块替换为基于 Transformer 的架构，灵感来自改进去噪扩散概率模型（IDDPM）和扩散 Transformer（DiT）系列工作。具体而言，Karlo 使用改进的 Transformer 编码器，联合处理噪声图像块和文本嵌入，相比卷积替代方案，能够更好地理解全局上下文。

文本条件处理通过冻结的 CLIP ViT-L/14 模型实现，该模型为无分类器引导提供文本嵌入和图像嵌入。引导尺度在每个时间步动态调整，以平衡多样性和保真度——这一技术在不牺牲对齐的情况下减少了模式崩溃。超分辨率阶段使用更传统的卷积 U-Net，但结合了噪声条件增强和与 CLIP 嵌入的交叉注意力，以保留细粒度细节。

从工程角度来看，Karlo 的代码库基于 PyTorch 构建，并利用混合精度训练和 DeepSpeed ZeRO-2 实现内存效率。训练管道完全文档化，包括 LAION-400M 和 Kakao 内部数据集的数据预处理步骤。仓库还包含预训练检查点、Gradio 演示和用于轻松部署的 Docker 镜像。这种完整性在开源生成模型中极为罕见——大多数仅发布推理代码或部分权重。

基准性能：
| 模型 | FID（MS-COCO 30K） | CLIP 分数（ViT-B/32） | 参数 | 训练数据 |
|---|---|---|---|---|
| Karlo（基础） | 8.73 | 0.321 | ~1.5B | LAION-400M + 内部 |
| Karlo（完整级联） | 7.12 | 0.335 | ~2.8B | 同上 |
| DALL·E 2 | 6.58 | 0.342 | ~3.5B（估计） | 专有 |
| Stable Diffusion 2.1 | 9.62 | 0.310 | ~1.0B | LAION-5B |
| Imagen（Google） | 7.27 | 0.338 | ~3.0B（估计） | 专有 |

数据要点： Karlo 的完整级联实现了 7.12 的 FID，仅落后 DALL·E 2 0.54 分，同时参数减少 20%。这表明基于 Transformer 的基础模型比 DALL·E 2 的纯 U-Net 方法更具参数效率。然而，CLIP 分数的差距（0.335 vs 0.342）表明 DALL·E 2 在文本-图像对齐方面仍具优势，这很可能归因于其更大、更精选的训练数据集。

关键参与者与案例研究

Kakao Brain 是 Kakao Corp 的 AI 研究部门，Kakao Corp 是韩国占主导地位的消息和互联网公司。Karlo 背后的团队由此前从事 Kakao 视觉识别和 NLP 模型（包括韩语 GPT 变体 'KoGPT'）的研究人员领导。Karlo 并非他们的首个生成模型——他们此前发布了基于更简单扩散架构的 'Karlo-v1'，但 v2 代表了使用 Transformer 骨干网络的完全重写。

竞争的开源项目包括 Stability AI 的 Stable Diffusion（使用带有 U-Net 的潜在扩散方法）和社区驱动的 Stability AI 'DeepFloyd IF'（基于像素的级联模型）。Karlo 的优势在于其完全可复现性：与依赖预训练 VAE 和 CLIP 模型的 Stable Diffusion 不同，Karlo 提供了整个训练栈，包括 CLIP 编码器训练代码。这使其成为希望研究或修改每个组件的研究人员最完整的开源基线。

开源文本生成图像模型比较：
| 特性 | Karlo | Stable Diffusion 2.1 | DeepFloyd IF |
|---|---|---|---|
| 架构 | 级联扩散 + Transformer 基础 | 潜在扩散 + U-Net | 级联像素扩散 + U-Net |
| 最大分辨率 | 1024x1024 | 768x768 | 1024x1024 |
| 训练代码 | 完整（包括 CLIP） | 部分（仅推理） | 部分（仅推理） |
| 引导类型 | CLIP 无分类器 | CLIP 无分类器 | T5-XXL 文本编码器 |
| 许可证 | MIT（研究用途） | CreativeML Open RAIL-M | DeepFloyd IF 许可证 |
| GitHub Stars | ~698 | ~45,000 | ~8,000 |

数据要点： Karlo 的星标数量比 Stable Diffusion 低一个数量级，但这低估了其影响力。研究社区看重 Karlo 的透明度，而非其流行度。研究用途的 MIT 许可证比 Stable Diffusion 的 RAIL 许可证更宽松，后者施加了使用限制。

行业影响与市场动态

Karlo 的发布正值关键时刻。文本生成图像市场预计将从 2023 年的 21 亿美元增长至 2028 年的 95 亿美元（年复合增长率 35%），由广告、游戏、电影前期制作和电子商务领域的应用驱动。然而，该市场目前由专有 API（OpenAI、Midjourney、Adobe Firefly）和一个占主导地位的开源模型（Stable Diffusion）主导。Karlo 的完全开源方法可能通过提供更透明、更可定制的替代方案来重塑竞争格局。

时间归档

常见问题

GitHub 热点“Karlo: Kakao Brain's Open-Source Diffusion Model Challenges DALL-E 2”主要讲了什么？

Karlo, developed by Kakao Brain, represents a significant milestone in the democratization of high-quality text-to-image generation. Unlike many proprietary systems that guard thei…

这个 GitHub 项目在“Karlo vs Stable Diffusion: which open-source model is better for fine-tuning?”上为什么会引发关注？

Karlo's architecture is a masterclass in efficient diffusion design. At its core, it uses a cascaded diffusion pipeline: a base diffusion model generates a 64x64 image, followed by two super-resolution stages that upscal…

从“How to run Karlo locally on a single GPU with 8GB VRAM”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 698，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。

Karlo 开源扩散模型挑战 DALL·E 2：Kakao Brain 的 Transformer 架构革新文本生成图像

技术深度解析

关键参与者与案例研究

行业影响与市场动态

更多来自 GitHub

相关专题

时间归档

延伸阅读

常见问题