技术深度解析
转向原始创新要求重新思考AI的技术基础。多年来,中国AI实验室擅长通过海量数据和算力扩展现有架构(Transformer、扩散模型),在视觉和语言任务上取得了顶尖成果。然而,底层创新——注意力机制、反向传播、Adam优化器——都源自国外。新政策旨在通过资助替代范式的研究来改变这一现状。
架构探索:
重点领域包括:
- 超越Transformer: 研究状态空间模型(如Mamba,GitHub上超过2万星),这些模型提供线性时间序列建模,挑战了注意力的二次复杂度。上海AI Lab等中国实验室已发表针对视觉的Mamba变体研究。
- 世界模型: 受DeepMind的Dreamer和Yann LeCun的JEPA启发,中国研究人员正在构建学习物理世界因果表征的模型。清华和上海AI Lab的开源项目UniSim旨在为具身AI模拟真实世界物理。
- 自主智能体框架: 像AutoGPT(16万星)和BabyAGI(2万星)这样的项目已被改编和扩展。智源等中国初创公司发布了AgentVerse,一个用于多智能体协作的框架,强调涌现行为而非单模型推理。
算法创新:
- 高效训练: 为减少对高端GPU的依赖,稀疏训练、量化和混合专家模型(MoE)的研究正在加速。微软的开源库DeepSpeed和HPC-AI Tech的ColossalAI(4万星)被广泛用于分布式训练。中国公司正在贡献新颖的MoE路由算法,以减少通信开销。
- 数据效率: 自监督学习技术如DINOv2和MAE正在被适配用于中国特定数据(如医学影像、工业检测)。上海AI Lab的InternVL模型系列通过高效预训练推动了视觉语言理解的边界。
基准性能:
| 模型 | 架构 | 参数 | MMLU (5-shot) | GSM8K (8-shot) | HumanEval (pass@1) |
|---|---|---|---|---|---|
| GPT-4o | Transformer (MoE) | ~200B (估计) | 88.7 | 92.0 | 90.2 |
| Claude 3.5 Sonnet | Transformer | — | 88.3 | 90.4 | 92.0 |
| Gemini Ultra | Transformer (MoE) | — | 83.7 | 87.1 | 74.4 |
| Qwen2.5-72B (阿里巴巴) | Transformer | 72B | 85.3 | 89.7 | 85.0 |
| DeepSeek-V2 (DeepSeek) | MoE | 236B总参数,21B活跃 | 78.5 | 84.1 | 75.0 |
| Yi-34B (01.AI) | Transformer | 34B | 76.3 | 73.1 | 68.0 |
数据要点: 虽然Qwen2.5和DeepSeek-V2等中国模型具有竞争力,但在复杂推理(GSM8K)和编码(HumanEval)方面仍落后于前沿模型。差距正在缩小,但仍然显著,尤其是在涌现能力方面。需要原始创新来弥合这一差距,而不仅仅是规模扩展。
值得关注的GitHub仓库:
- Mamba(状态空间模型):2万+星,中国研究人员的活跃分支。
- AgentVerse(多智能体框架):4千+星,由智源开发。
- InternVL(视觉语言):5千+星,上海AI Lab。
- ColossalAI(高效训练):4万+星,HPC-AI Tech。
关键玩家与案例研究
百度: 作为曾经以ERNIE为先驱的公司,百度已从追逐GPT-4的同等性能转向投资基础研究。其ERNIE 4.0仍依赖Transformer架构,但百度新的昆仑芯片(7纳米,AI专用)代表了硬件层面押注原始创新。该公司还在探索自动驾驶的世界模型,这是一个没有直接收入的长期项目。
阿里巴巴(Qwen团队): 阿里巴巴的Qwen系列一直表现强劲,但团队现在专注于新颖注意力机制和多模态融合。其Qwen2.5的开源版本已被广泛采用(1万+星)。挑战在于超越渐进式改进,实现真正新颖的架构。
DeepSeek(幻方量化): 这个从量化交易转型的AI实验室因其MoE架构而受到关注,该架构以更少的活跃参数实现了有竞争力的性能。DeepSeek-V2的21B活跃参数对比236B总参数是一个巧妙的工程权衡。然而,这仍然是对现有想法的优化,而非范式转变。
智谱AI: 由清华大学支持,智谱发布了GLM-4和ChatGLM系列。他们在双语理解和代码生成方面的专注很扎实,但现在正在投资自主智能体研究和长上下文模型(高达100万token)。其开源AgentVerse是对原始多智能体框架的直接押注。
中国LLM策略对比:
| 公司 | 模型 | 架构 | 重点领域 | 开源 | 关键创新 |
|---|---|---|---|---|---|
| 百度 | ERNIE 4.0 | Transformer | 基础研究、芯片 | 部分开源 | 昆仑芯片、自动驾驶世界模型 |
| 阿里巴巴 | Qwen2.5 | Transformer | 注意力机制、多模态 | 开源 | 高效预训练、多模态融合 |
| DeepSeek | DeepSeek-V2 | MoE | 高效参数利用 | 开源 | 活跃参数优化、MoE路由 |
| 智谱AI | GLM-4 | Transformer | 自主智能体、长上下文 | 开源 | AgentVerse、长上下文模型 |