腾讯混元大模型开源:3890亿参数巨兽重塑中国AI格局

GitHub June 2026
⭐ 1587
来源:GitHubopen-source LLMlarge language modelAI infrastructure归档:June 2026
腾讯正式开源Hunyuan-Large,一款拥有3890亿参数的混合专家(MoE)大语言模型,堪称中国AI生态迄今最重磅的贡献之一。其MoE架构设计与亮眼的基准测试表现,标志着中国科技巨头正以全新战略姿态推动AI商品化进程。

2025年6月6日,腾讯开源了Hunyuan-Large——一款拥有3890亿参数的巨型语言模型,采用混合专家(MoE)架构,每个Token仅激活520亿参数。该模型在GitHub上以宽松许可证发布,立即成为中国科技公司开源的最大LLM。Hunyuan-Large在性能上与百度文心一言4.0等国内对手以及Llama 3.1 405B等国际模型不相上下,尤其在中文任务和数学推理方面表现突出。此次发布恰逢中国AI市场陷入价格战,推理成本在过去一年内暴跌超90%。腾讯此举并非单纯的技术共享,而是一场精心布局:旨在通过微信生态的深度整合,将Hunyuan打造为下一代AI应用的基础设施。

技术深度解析

腾讯Hunyuan-Large采用混合专家(MoE)架构,总参数量达3890亿,但每次推理仅激活520亿参数。这一设计至关重要:它让模型在保持远超自身规模的知识容量的同时,将计算成本控制在可管理范围内。架构使用Top-2路由机制,即每个Token由两个专家网络处理,这与Mixtral 8x7B和DeepSeek-V2等模型的常见模式一致。

Hunyuan-Large的独特之处在于其训练基础设施。腾讯开发了名为Angel-PTM的自定义训练框架,用于在4.5万亿Token的中英文数据上训练模型。训练动用了超过10000块NVIDIA H800 GPU,报告显示训练效率(Model FLOPs Utilization, MFU)超过50%。这值得关注,因为许多大规模训练任务因通信瓶颈而难以突破40%的MFU。

该模型支持128K Token的上下文窗口,通过旋转位置编码(RoPE)与一种名为“混合注意力”(Hybrid Attention)的新型注意力机制实现——该机制在密集注意力层和稀疏注意力层之间交替切换。这使得模型能够处理长文档和多轮对话,而不会出现二次方级别的内存爆炸。

基准测试表现:

| 基准测试 | Hunyuan-Large | Llama 3.1 405B | DeepSeek-V2 | Qwen2-72B |
|---|---|---|---|---|
| MMLU(英文) | 86.2 | 87.3 | 84.5 | 84.1 |
| C-Eval(中文) | 91.5 | 78.2 | 89.1 | 90.8 |
| GSM8K(数学) | 92.1 | 91.8 | 89.5 | 90.2 |
| HumanEval(代码) | 74.3 | 76.8 | 71.2 | 70.5 |
| 上下文窗口 | 128K | 128K | 128K | 32K |

数据要点: Hunyuan-Large在英文基准测试上与Llama 3.1 405B几乎持平,而在中文任务(C-Eval)上显著领先。其数学性能达到业界最佳水平,表明推理能力强劲。然而,代码生成能力落后于Llama,说明这是待改进的方向。

GitHub上的开源发布包含模型权重、推理代码以及简化版的训练流程。该仓库已获得超过1500颗星,但与Llama仓库的50000+星相比仍显逊色。这很可能反映了受众差异——中国开发者更倾向于使用Gitee。

关键参与者与案例研究

腾讯混元团队由前微软亚洲研究院科学家张正博士领导,他曾参与Turing-NLG模型的研发。团队已发表多篇关于高效训练技术的论文,包括已在腾讯内部使用两年多的Angel-PTM框架。

此次发布使腾讯与几个关键竞争对手形成对峙:

- 百度(文心一言4.0): 百度的旗舰模型仍保持闭源,API定价为每千Token ¥0.12。百度专注于医疗、自动驾驶等垂直应用,而非开源。
- 阿里巴巴(Qwen2): 阿里巴巴是中国科技巨头中最积极的开源贡献者,发布了从0.5B到72B参数的模型。但他们尚未发布任何接近Hunyuan-Large规模的模型。
- DeepSeek(DeepSeek-V2): 由对冲基金支持的AI实验室DeepSeek于2025年初发布了236B参数的MoE模型,在开源社区中获得显著关注。DeepSeek-V2以其极低的推理成本(每百万Token $0.14)而闻名。
- 智谱AI(GLM-4): 智谱的GLM-4系列在中国企业中广受欢迎,其130B参数的密集模型在中文基准测试中表现出色。

竞争格局对比:

| 公司 | 模型 | 参数量 | 开源 | API价格(每百万Token) | 核心优势 |
|---|---|---|---|---|---|
| 腾讯 | Hunyuan-Large | 3890亿(520亿激活) | 是 | ¥0.08 | 规模 + 微信集成 |
| 百度 | 文心一言4.0 | ~2000亿(估) | 否 | ¥0.12 | 搜索集成 |
| 阿里巴巴 | Qwen2-72B | 720亿 | 是 | ¥0.04 | 生态广度 |
| DeepSeek | DeepSeek-V2 | 2360亿(210亿激活) | 是 | ¥0.14 | 成本效率 |
| 智谱AI | GLM-4 | 1300亿 | 部分 | ¥0.10 | 企业支持 |

数据要点: 腾讯每百万Token ¥0.08的定价低于百度与智谱,同时提供更大的模型。但DeepSeek-V2仍是最便宜的选择。腾讯的关键差异化因素并非价格,而是与拥有13亿月活用户的微信的潜在集成。

一个值得关注的案例是京东的采用:京东已将Hunyuan-Large集成到其客服系统中。早期报告显示,复杂查询的人工客服升级率降低了30%。另一个例子是腾讯云与招商银行的合作,利用Hunyuan-Large进行金融文档分析与合规检查。

行业影响与市场动态

Hunyuan-Large的开源正值中国AI市场经历剧烈价格压缩的背景。自2025年初以来,推理成本已下降超过90%,主要驱动因素包括:

- 价格战白热化: 字节跳动、百度、阿里巴巴等公司已将API价格削减至接近成本水平,部分模型每百万Token收费低于¥0.01。
- 开源商品化: 开源模型(如Qwen2、DeepSeek-V2)的激增使企业能够自行部署,从而压低了商业API的价格。
- 监管不确定性: 中国对AI生成内容的监管要求(如水印与内容审核)增加了合规成本,促使小型玩家退出市场。

腾讯的开源策略在此背景下具有多重战略意义:

1. 生态锁定: 通过开源Hunyuan-Large,腾讯旨在围绕其云服务与微信小程序建立开发者生态。一旦开发者基于Hunyuan构建应用,迁移成本将变得高昂。
2. 数据飞轮: 开源模型的使用量越大,腾讯收集的反馈数据就越多,从而能够改进下一代模型。这对于追赶百度与阿里巴巴的数据优势至关重要。
3. 人才吸引: 开源项目是顶尖AI人才的磁石。通过展示技术实力,腾讯希望吸引那些可能更倾向于DeepSeek或智谱等初创公司的研究人员。

然而,风险同样存在。开源大型模型可能削弱腾讯云API服务的收入。此外,模型可能被用于有害目的,从而引发监管审查。腾讯已实施使用限制,禁止生成非法内容,但执行难度极大。

未来展望与预测

Hunyuan-Large的发布可能加速中国AI市场的几大趋势:

- 开源模型的规模竞赛: 阿里巴巴与DeepSeek可能被迫发布更大规模的模型以保持竞争力。预计到2025年底,中国将出现万亿参数级别的开源模型。
- 垂直整合: 拥有强大消费者生态的公司(腾讯、字节跳动、阿里巴巴)将利用其模型增强现有产品,而非仅仅销售API访问权限。腾讯与微信的集成可能成为杀手级应用。
- 成本压缩持续: 随着MoE架构与量化技术的成熟,推理成本可能再下降90%。这将使AI应用在中小企业中普及。
- 监管趋严: 中国政府可能对开源模型实施更严格的管控,要求进行安全评估与注册。这可能导致开源生态的分化:面向国内的开源模型与面向国际的开源模型。

对开发者的建议: 如果你正在构建面向中国市场的AI应用,Hunyuan-Large是一个强有力的选择,尤其是当你需要处理中文内容或与微信生态集成时。对于成本敏感型应用,DeepSeek-V2仍是最佳选择。如果你需要多模态能力,请关注阿里巴巴的Qwen-VL系列。

对投资者的建议: 腾讯的开源策略是一步险棋。短期内,它将增加AI基础设施的支出,并可能侵蚀云服务收入。但长期来看,如果微信成为AI应用的主要平台,回报将十分可观。关注腾讯在2025年第三季度财报中披露的AI相关云收入。

对政策制定者的建议: 开源模型的快速普及是一把双刃剑。它促进了创新与竞争,但也带来了虚假信息与滥用风险。中国需要建立平衡的监管框架,鼓励负责任的开源,同时防范危害。

总而言之,Hunyuan-Large不仅仅是一个模型——它是腾讯在AI时代的宣言。通过开源其最强大的模型,腾讯正在打赌,开放将比封闭带来更大的长期价值。这一赌注可能重塑中国AI格局,并影响全球开源社区。

更多来自 GitHub

ProxyPin:开源网络调试利器,挑战付费流量抓取工具霸主地位ProxyPin 是一款开源、跨平台的 HTTP(S) 流量抓取与调试工具,在开发者社区中迅速走红,已累计获得超过 13,000 个 GitHub 星标,日均新增近 500 星。由 wanghongenpin 团队开发,它提供图形化界面,支Animal Island Vue:任天堂风格UI库为何值得前端设计关注Animal Island Vue 由开发者 guokaigdg 创建,是一个 Vue 组件库,系统地将任天堂《集合啦!动物森友会》的视觉语言封装为可复用的前端组件。该库包含按钮、卡片、模态框等UI元素,全部采用游戏标志性的柔和色彩、圆润造Animal Island UI:一款任天堂风格React库如何在一天内斩获3000+ GitHub星标Animal Island UI,一款由开发者guokaigdg创建的开源React组件库,在前端社区掀起热潮。该库精心还原了任天堂《集合啦!动物森友会》的视觉语言——柔和的粉彩调色板、圆角卡片、泡泡按钮和手绘图标——并将其封装为可复用的R查看来源专题页GitHub 已收录 2424 篇文章

相关专题

open-source LLM25 篇相关文章large language model65 篇相关文章AI infrastructure282 篇相关文章

时间归档

June 2026551 篇已发布文章

延伸阅读

Kimi K2.5:月之暗面的豪赌,重新定义中国大模型边界月之暗面发布迄今最强模型Kimi K2.5,在通用对话与复杂推理上宣称达到顶级水准。其庞大的参数量、优化的注意力机制以及激进的开源策略,标志着这家中国AI实验室正试图重塑国内AI格局与全球开源大模型生态。Qwen3的MoE架构:重塑开源AI的经济学与性能标杆阿里云Qwen团队正式推出新一代开源大语言模型系列Qwen3,其采用的先进混合专家架构在实现多语言与推理任务顶尖性能的同时,大幅降低了推理成本。这一突破性设计不仅挑战了现有模型扩展范式,更使其成为开源与商业AI领域的强劲竞争者。Langchain-Chatchat:重塑企业AI部署的开源RAG平台开源RAG平台Langchain-Chatchat(原名Langchain-ChatGLM)凭借将本地知识库与ChatGLM、Qwen、Llama等强大LLM无缝衔接的能力,GitHub星标已突破38,000。AINews深入探究这一工具如DaoCloud镜像解锁Kubeflow中国部署:技术深度解析一个名为zhiyong-xu2/modify_kubeflow_manifest的GitHub项目,通过修改Kubeflow清单并利用DaoCloud的公共镜像代理,成功绕过中国网络限制,实现了MLOps平台的本地化部署。这一适配方案,折射

常见问题

GitHub 热点“Tencent Hunyuan-Large: Open-Source Giant Reshapes China's AI Landscape”主要讲了什么?

On June 6, 2025, Tencent open-sourced Hunyuan-Large, a massive 389 billion parameter language model with a Mixture-of-Experts (MoE) architecture that activates only 52 billion para…

这个 GitHub 项目在“How does Tencent Hunyuan-Large compare to Llama 3.1 405B on Chinese benchmarks”上为什么会引发关注?

Tencent Hunyuan-Large employs a Mixture-of-Experts (MoE) architecture with 389 billion total parameters, but only 52 billion are activated per inference step. This design choice is critical: it allows the model to mainta…

从“Is Tencent Hunyuan-Large truly open source or open-washing”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 1587,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。