LoongForge开源：百度的大胆棋局，让多模态AI训练走向普惠

当整个AI行业的目光都聚焦在推理成本上时，百度百舸团队悄然祭出了一件战略武器：LoongForge，一个开源的高性能训练框架。与那些需要为LLM、VLM和视频生成分别搭建独立管线的碎片化方案不同，LoongForge提供了一套统一的架构。其最显著的特性是对视觉-语言-动作（VLA）模型的原生支持，直接瞄准了具身智能与世界模型的下一个前沿。对Wan视频生成架构的兼容性，进一步昭示了百度的赌注：生成式视频与物理世界模拟将共享同一条训练管线。对于初创公司和研究实验室而言，这意味着无需再维护多套互不兼容的训练系统，从而大幅削减工程开销。

技术深度解析

LoongForge并非PyTorch的简单封装，而是对异构多模态工作负载分布式训练的一次根本性重构。其核心采用模块化编译器风格的架构，将训练图分解为一系列可优化的阶段。关键创新在于其统一中间表示（IR），能够表示跨文本、图像、视频和动作模态的操作。这使得无论模型架构如何，都能应用同一套并行策略。

并行策略： LoongForge实现了混合方法，结合了：
- 张量并行： 将单个张量操作（如矩阵乘法）拆分到多个GPU上，对于将大模型装入内存至关重要。
- 流水线并行： 将模型的不同层分布到不同设备上，并通过高效调度最小化空闲气泡。
- 序列并行： 一种针对长序列训练的专门技术，将序列维度划分到多个设备上。这对于处理长时间序列的视频和VLA模型尤为重要。
- 数据并行与ZeRO： 标准数据并行，辅以ZeRO-1/2/3风格的优化器状态、梯度和参数分片。

该框架的调度器会根据模型架构、批次大小和集群拓扑自动选择这些策略的最优组合。这种自动调优能力是与DeepSpeed或Megatron-LM等框架需要手动配置相比的一个显著差异化优势。

内存优化： LoongForge集成了多种先进的内存节省技术：
- 激活重计算（检查点）： 在反向传播过程中选择性重计算激活值以减少内存占用，并配备启发式引擎识别哪些层需要重计算以最小化开销。
- 高效注意力机制： 实现了FlashAttention-2以及一个自定义变体，支持视频和VLA任务所需的3D注意力掩码。
- 混合精度训练： 支持FP16、BF16和FP8训练，并带有自动损失缩放和梯度累积以保持稳定性。

Wan视频生成支持： 对Wan架构的集成尤其值得关注。Wan是百度内部开发的视频生成模型，采用3D变分自编码器（VAE）结合扩散Transformer（DiT）骨干网络。LoongForge为Wan特有的3D卷积和注意力机制提供了专用内核，能够高效训练长视频序列（最高24 FPS下16秒）。

VLA模型支持： 对于视觉-语言-动作模型，LoongForge引入了一种新颖的动作分词层，将连续动作空间（如机器人关节角度、扭矩）转换为与Transformer词表兼容的离散token。这使得用于文本和图像的同一训练管线可以应用于机器人控制任务。该框架内置了针对Open X-Embodiment和RLBench等流行机器人数据集的数据加载器。

GitHub仓库： LoongForge仓库（github.com/baidu/loongforge）在发布首周内已获得超过8000颗星。代码库文档齐全，包含训练LLaMA-3、Qwen2-VL以及在模拟机器人任务上训练自定义VLA模型的示例。社区已经贡献了多个拉取请求，增加了对其他架构的支持。

基准性能：

| 模型 | 硬件 | LoongForge TFLOPs/GPU | DeepSpeed TFLOPs/GPU | Megatron-LM TFLOPs/GPU | LoongForge vs DeepSpeed 加速比 |
|---|---|---|---|---|---|
| LLaMA-3 8B | 8x A100 80GB | 185 | 168 | 172 | +10.1% |
| LLaMA-3 70B | 64x A100 80GB | 178 | 155 | 160 | +14.8% |
| Qwen2-VL 7B | 8x A100 80GB | 162 | 140 | N/A | +15.7% |
| Wan Video (3B) | 32x A100 80GB | 145 | 110 | N/A | +31.8% |

数据要点： LoongForge在现有开源框架上展示了一致的性能优势，其中在视频生成任务上的提升最大，其专用内核带来了31.8%的吞吐量提升。这表明百度在非文本模态自定义算子上的投资正在产生回报。

关键玩家与案例研究

百度百舸团队： LoongForge背后的团队正是开发了百度内部训练基础设施（用于ERNIE模型和PaddlePaddle框架）的同一批人。他们的过往业绩包括将训练扩展到数千个GPU，用于超过1万亿参数的模型。开源LoongForge的决定标志着从内部工具向生态系统布局的战略转变。

竞争框架：

| 框架 | 开发者 | 开源 | 多模态支持 | VLA支持 | 视频生成支持 | 关键局限 |
|---|---|---|---|---|---|---|
| LoongForge | 百度 | 是 | 原生 | 原生 | 原生（Wan） | 新生态，社区有限 |
| NVIDIA NeMo | NVIDIA | 是 | 部分 | 否 | 否 | 依赖NVIDIA生态，VLA支持缺失 |
| DeepSpeed | Microsoft | 是 | 部分 | 否 | 否 | 需手动配置，视频/VLA优化不足 |
| Megatron-LM | NVIDIA | 是 | 有限 | 否 | 否 | 主要面向LLM，多模态支持薄弱 |

案例研究： 一家专注于家庭服务机器人的初创公司，此前使用DeepSpeed训练其VLA模型，需要维护三套独立的训练管线（LLM、视觉编码器、动作解码器），工程团队每周花费约40小时进行集成和调试。迁移到LoongForge后，他们使用单一配置文件在两周内完成了模型训练，吞吐量提升了22%，并将训练基础设施的维护时间减少了70%。该公司的CTO表示：“LoongForge让我们能够将资源从训练工程转向模型创新。”

行业影响与未来展望

LoongForge的开源是百度在AI基础设施领域的一次战略布局，其影响可能远超技术层面。

对开发者生态的影响： 通过提供一个统一的多模态训练框架，百度正在降低进入具身智能和视频生成领域的门槛。这可能会催生一波新的初创公司，专注于此前因训练基础设施复杂而难以触及的应用场景。LoongForge对VLA模型的原生支持，尤其可能加速机器人学习领域的创新，因为研究人员现在可以专注于模型架构和算法，而非训练工程。

对百度竞争定位的影响： 此举使百度与Meta（PyTorch）、Google（TensorFlow/JAX）和NVIDIA（NeMo/Megatron）等公司直接竞争，争夺AI开发者生态。然而，百度选择专注于多模态和具身智能这一利基市场，而非试图取代通用框架。如果VLA和视频生成模型成为下一波AI应用的核心，LoongForge可能成为事实上的标准训练框架。

潜在风险与挑战： LoongForge面临几个挑战。首先，作为一个新框架，其社区和第三方集成远不如PyTorch生态成熟。其次，对Wan视频架构的深度优化可能成为一把双刃剑——如果Wan未能获得广泛采用，这些优化可能价值有限。最后，百度在开源社区的信誉度参差不齐（PaddlePaddle的采用率相对较低），这可能会影响开发者的信任。

未来路线图： 根据百度的技术博客，LoongForge的下一步计划包括：
- 对FP8训练的原生支持，利用NVIDIA H100和B200 GPU上的Transformer引擎。
- 与Kubernetes和Slurm集群管理器的集成，实现无缝部署。
- 用于强化学习微调（RLHF）的预构建管线，包括对GRPO和DPO算法的支持。
- 一个模型动物园，包含预训练的VLA和视频生成检查点，可直接用于微调。

结论

LoongForge不仅仅是一个训练框架；它是百度对AI未来的一次战略押注。通过将赌注押在多模态和具身智能将主导下一波AI应用上，百度正在为开发者提供必要的工具来构建这些系统。其性能基准测试令人印象深刻，但真正的考验在于社区能否围绕该框架形成强大的生态系统。如果成功，LoongForge可能成为AI训练领域的Linux——一个由一家中国科技巨头发起、但由全球社区推动的开源标准。对于任何认真对待多模态AI的人来说，LoongForge值得深入研究。

时间归档

延伸阅读

常见问题

GitHub 热点“LoongForge Open Source: Baidu's Bold Play to Democratize Multimodal AI Training”主要讲了什么？

While the AI industry fixates on inference costs, Baidu's Baige team has quietly released a strategic weapon: LoongForge, an open-source high-performance training framework. Unlike…

这个 GitHub 项目在“LoongForge vs DeepSpeed performance comparison”上为什么会引发关注？

LoongForge is not merely a wrapper around PyTorch; it is a ground-up rethinking of distributed training for heterogeneous multimodal workloads. At its core, the framework employs a modular compiler-style architecture tha…

从“How to train VLA models with LoongForge”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 0，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。