LoongForge开源:百度的大胆棋局,让多模态AI训练走向普惠

Hacker News May 2026
来源:Hacker Newsopen source AI归档:May 2026
百度百舸团队正式开源LoongForge,一个高性能训练框架,统一支持大语言模型、视觉语言模型、视觉-语言-动作模型以及Wan视频生成架构。此举旨在降低多模态与具身智能开发门槛,有望重塑AI开发者的技术栈格局。

当整个AI行业的目光都聚焦在推理成本上时,百度百舸团队悄然祭出了一件战略武器:LoongForge,一个开源的高性能训练框架。与那些需要为LLM、VLM和视频生成分别搭建独立管线的碎片化方案不同,LoongForge提供了一套统一的架构。其最显著的特性是对视觉-语言-动作(VLA)模型的原生支持,直接瞄准了具身智能与世界模型的下一个前沿。对Wan视频生成架构的兼容性,进一步昭示了百度的赌注:生成式视频与物理世界模拟将共享同一条训练管线。对于初创公司和研究实验室而言,这意味着无需再维护多套互不兼容的训练系统,从而大幅削减工程开销。

技术深度解析

LoongForge并非PyTorch的简单封装,而是对异构多模态工作负载分布式训练的一次根本性重构。其核心采用模块化编译器风格的架构,将训练图分解为一系列可优化的阶段。关键创新在于其统一中间表示(IR),能够表示跨文本、图像、视频和动作模态的操作。这使得无论模型架构如何,都能应用同一套并行策略。

并行策略: LoongForge实现了混合方法,结合了:
- 张量并行: 将单个张量操作(如矩阵乘法)拆分到多个GPU上,对于将大模型装入内存至关重要。
- 流水线并行: 将模型的不同层分布到不同设备上,并通过高效调度最小化空闲气泡。
- 序列并行: 一种针对长序列训练的专门技术,将序列维度划分到多个设备上。这对于处理长时间序列的视频和VLA模型尤为重要。
- 数据并行与ZeRO: 标准数据并行,辅以ZeRO-1/2/3风格的优化器状态、梯度和参数分片。

该框架的调度器会根据模型架构、批次大小和集群拓扑自动选择这些策略的最优组合。这种自动调优能力是与DeepSpeed或Megatron-LM等框架需要手动配置相比的一个显著差异化优势。

内存优化: LoongForge集成了多种先进的内存节省技术:
- 激活重计算(检查点): 在反向传播过程中选择性重计算激活值以减少内存占用,并配备启发式引擎识别哪些层需要重计算以最小化开销。
- 高效注意力机制: 实现了FlashAttention-2以及一个自定义变体,支持视频和VLA任务所需的3D注意力掩码。
- 混合精度训练: 支持FP16、BF16和FP8训练,并带有自动损失缩放和梯度累积以保持稳定性。

Wan视频生成支持: 对Wan架构的集成尤其值得关注。Wan是百度内部开发的视频生成模型,采用3D变分自编码器(VAE)结合扩散Transformer(DiT)骨干网络。LoongForge为Wan特有的3D卷积和注意力机制提供了专用内核,能够高效训练长视频序列(最高24 FPS下16秒)。

VLA模型支持: 对于视觉-语言-动作模型,LoongForge引入了一种新颖的动作分词层,将连续动作空间(如机器人关节角度、扭矩)转换为与Transformer词表兼容的离散token。这使得用于文本和图像的同一训练管线可以应用于机器人控制任务。该框架内置了针对Open X-Embodiment和RLBench等流行机器人数据集的数据加载器。

GitHub仓库: LoongForge仓库(github.com/baidu/loongforge)在发布首周内已获得超过8000颗星。代码库文档齐全,包含训练LLaMA-3、Qwen2-VL以及在模拟机器人任务上训练自定义VLA模型的示例。社区已经贡献了多个拉取请求,增加了对其他架构的支持。

基准性能:

| 模型 | 硬件 | LoongForge TFLOPs/GPU | DeepSpeed TFLOPs/GPU | Megatron-LM TFLOPs/GPU | LoongForge vs DeepSpeed 加速比 |
|---|---|---|---|---|---|
| LLaMA-3 8B | 8x A100 80GB | 185 | 168 | 172 | +10.1% |
| LLaMA-3 70B | 64x A100 80GB | 178 | 155 | 160 | +14.8% |
| Qwen2-VL 7B | 8x A100 80GB | 162 | 140 | N/A | +15.7% |
| Wan Video (3B) | 32x A100 80GB | 145 | 110 | N/A | +31.8% |

数据要点: LoongForge在现有开源框架上展示了一致的性能优势,其中在视频生成任务上的提升最大,其专用内核带来了31.8%的吞吐量提升。这表明百度在非文本模态自定义算子上的投资正在产生回报。

关键玩家与案例研究

百度百舸团队: LoongForge背后的团队正是开发了百度内部训练基础设施(用于ERNIE模型和PaddlePaddle框架)的同一批人。他们的过往业绩包括将训练扩展到数千个GPU,用于超过1万亿参数的模型。开源LoongForge的决定标志着从内部工具向生态系统布局的战略转变。

竞争框架:

| 框架 | 开发者 | 开源 | 多模态支持 | VLA支持 | 视频生成支持 | 关键局限 |
|---|---|---|---|---|---|---|
| LoongForge | 百度 | 是 | 原生 | 原生 | 原生(Wan) | 新生态,社区有限 |
| NVIDIA NeMo | NVIDIA | 是 | 部分 | 否 | 否 | 依赖NVIDIA生态,VLA支持缺失 |
| DeepSpeed | Microsoft | 是 | 部分 | 否 | 否 | 需手动配置,视频/VLA优化不足 |
| Megatron-LM | NVIDIA | 是 | 有限 | 否 | 否 | 主要面向LLM,多模态支持薄弱 |

案例研究: 一家专注于家庭服务机器人的初创公司,此前使用DeepSpeed训练其VLA模型,需要维护三套独立的训练管线(LLM、视觉编码器、动作解码器),工程团队每周花费约40小时进行集成和调试。迁移到LoongForge后,他们使用单一配置文件在两周内完成了模型训练,吞吐量提升了22%,并将训练基础设施的维护时间减少了70%。该公司的CTO表示:“LoongForge让我们能够将资源从训练工程转向模型创新。”

行业影响与未来展望

LoongForge的开源是百度在AI基础设施领域的一次战略布局,其影响可能远超技术层面。

对开发者生态的影响: 通过提供一个统一的多模态训练框架,百度正在降低进入具身智能和视频生成领域的门槛。这可能会催生一波新的初创公司,专注于此前因训练基础设施复杂而难以触及的应用场景。LoongForge对VLA模型的原生支持,尤其可能加速机器人学习领域的创新,因为研究人员现在可以专注于模型架构和算法,而非训练工程。

对百度竞争定位的影响: 此举使百度与Meta(PyTorch)、Google(TensorFlow/JAX)和NVIDIA(NeMo/Megatron)等公司直接竞争,争夺AI开发者生态。然而,百度选择专注于多模态和具身智能这一利基市场,而非试图取代通用框架。如果VLA和视频生成模型成为下一波AI应用的核心,LoongForge可能成为事实上的标准训练框架。

潜在风险与挑战: LoongForge面临几个挑战。首先,作为一个新框架,其社区和第三方集成远不如PyTorch生态成熟。其次,对Wan视频架构的深度优化可能成为一把双刃剑——如果Wan未能获得广泛采用,这些优化可能价值有限。最后,百度在开源社区的信誉度参差不齐(PaddlePaddle的采用率相对较低),这可能会影响开发者的信任。

未来路线图: 根据百度的技术博客,LoongForge的下一步计划包括:
- 对FP8训练的原生支持,利用NVIDIA H100和B200 GPU上的Transformer引擎。
- 与Kubernetes和Slurm集群管理器的集成,实现无缝部署。
- 用于强化学习微调(RLHF)的预构建管线,包括对GRPO和DPO算法的支持。
- 一个模型动物园,包含预训练的VLA和视频生成检查点,可直接用于微调。

结论

LoongForge不仅仅是一个训练框架;它是百度对AI未来的一次战略押注。通过将赌注押在多模态和具身智能将主导下一波AI应用上,百度正在为开发者提供必要的工具来构建这些系统。其性能基准测试令人印象深刻,但真正的考验在于社区能否围绕该框架形成强大的生态系统。如果成功,LoongForge可能成为AI训练领域的Linux——一个由一家中国科技巨头发起、但由全球社区推动的开源标准。对于任何认真对待多模态AI的人来说,LoongForge值得深入研究。

更多来自 Hacker News

从黑箱到导演:86个MCP工具如何将AI视频变成可编程的创作代理在一场重新定义AI视频生成器能力的演示中,一位开发者将86个MCP(模型上下文协议)工具集成到视频生成系统中,使Claude Code能够充当虚拟电影导演。这一设置将传统上“提示词到视频”的单一流程拆解为模块化流水线:Claude CodeKiroGraph:轻量级知识图谱,将AI代码理解成本砍至零头AINews独家发现KiroGraph——一款从代码库构建本地轻量级知识图谱的工具,可映射函数、类、模块及其依赖关系(调用、继承、导入)。通过将代码预处理为结构化形式,KiroGraph让AI助手无需逐行读取原始源文件即可掌握项目架构与语义Taalas 自研芯片以 14,000 TPS 刷新 LLM 推理速度纪录,性能碾压 GPU 集群 70 倍在一项里程碑式的演示中,Taalas 展示了一款专用 AI 推理芯片,能以每秒超过 14,000 个 token(TPS)的速度处理 Llama 3.1 8B 模型。相比之下,即便是最强大的 NVIDIA H100 GPU 集群,在运行同一查看来源专题页Hacker News 已收录 3746 篇文章

相关专题

open source AI189 篇相关文章

时间归档

May 20262342 篇已发布文章

延伸阅读

AI算力过剩:闲置硬件如何重塑行业格局大规模AI基础设施建设导致算力供过于求,商业需求远无法消化。这一过剩迫使云服务商大幅降价、向研究捐赠算力,并押注新一代AI原生应用。YantrikDB:让AI代理真正拥有持久记忆的开源记忆层YantrikDB 是一个专为 AI 代理设计的开源持久化记忆层,支持跨会话存储、检索和长期知识推理。它直接解决了大语言模型中临时记忆的致命缺陷,标志着从无状态交互向具备持久记忆的自主系统的转变。ModelDocker桌面客户端:将OpenRouter混乱的LLM市场统一为一个指挥中心开源桌面应用ModelDocker正在重塑开发者与重度用户与OpenRouter海量大语言模型交互的方式。通过提供一个集提示缓存、流式输出和并排模型对比于一体的本地客户端,它消除了管理数十个API密钥和端点的繁琐,标志着以用户为中心的AI编KillClawd:开源桌面螃蟹AI,本地运行,专怼你的工作习惯一款名为KillClawd的开源项目,将你的桌面变成一只毒舌螃蟹AI的舞台,它实时监控并嘲讽你的工作习惯。完全离线运行于本地Ollama模型,这不仅是AI人格化与本地推理的前沿实验,更预示着桌面智能体兼具实用与娱乐的未来。

常见问题

GitHub 热点“LoongForge Open Source: Baidu's Bold Play to Democratize Multimodal AI Training”主要讲了什么?

While the AI industry fixates on inference costs, Baidu's Baige team has quietly released a strategic weapon: LoongForge, an open-source high-performance training framework. Unlike…

这个 GitHub 项目在“LoongForge vs DeepSpeed performance comparison”上为什么会引发关注?

LoongForge is not merely a wrapper around PyTorch; it is a ground-up rethinking of distributed training for heterogeneous multimodal workloads. At its core, the framework employs a modular compiler-style architecture tha…

从“How to train VLA models with LoongForge”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。