技术深度解析
梁文锋的AGI路径根植于“高效扩展”而非蛮力计算的哲学。DeepSeek的技术架构正体现了这一点。与许多中国AI实验室专注于通过海量参数复制GPT-4规模模型不同,DeepSeek率先采用了混合专家(MoE)架构,以显著更低的推理成本实现了具有竞争力的性能。
核心创新在于DeepSeek的稀疏MoE设计,其中对于任何给定token,仅激活模型总参数的一小部分。这在架构上类似于Google的Switch Transformer,但进行了关键优化。DeepSeek的MoE使用top-2路由机制,并带有负载均衡损失,以防止“token崩溃”——即所有token路由到同一专家的常见故障模式。该公司还实现了一种新颖的“辅助损失”,在不妨碍计算效率的前提下鼓励专家专业化。
在训练方面,DeepSeek的资源效率令人瞩目。据估计,GPT-4需要超过1亿美元的计算成本,而DeepSeek的最新模型——DeepSeek-V2——是在约10,000块NVIDIA H800 GPU集群上训练的,成本估计为5000-6000万美元。这大约是百度或阿里巴巴同类模型成本的一半。效率提升来自8位浮点训练(FP8)、先进的梯度检查点技术以及自定义分布式训练框架的组合,该框架最大限度地减少了通信开销。
| 模型 | 参数(激活) | 训练成本(估计) | MMLU分数 | 每百万token推理成本 |
|---|---|---|---|---|
| DeepSeek-V2 | 236B(21B激活) | 5500万美元 | 78.2 | 0.14美元 |
| GPT-4 | ~1.8T(估计) | 1亿美元+ | 86.4 | 2.50美元 |
| Qwen2-72B | 72B(72B激活) | 4000万美元 | 72.1 | 0.35美元 |
| Llama 3 70B | 70B(70B激活) | 3000万美元 | 82.0 | 0.90美元 |
数据要点: DeepSeek-V2以GPT-4 5.6%的推理成本实现了其MMLU性能的90%。这种“效率优先”的方法不仅是技术成就,更是梁文锋融资模式的直接结果——该模式优先考虑长期研究而非短期市场份额。
该公司的开源策略也独具特色。DeepSeek已在GitHub上以宽松许可证发布了多个模型,包括用于代码生成的DeepSeek-Coder系列和用于数学推理的DeepSeek-Math。DeepSeek-Coder仓库已累计超过15,000颗星,开发者称赞其处理复杂多文件代码库的能力。这种开源方法具有双重目的:建立社区好感,并创建一个无需昂贵人工标注即可提高模型质量的反馈循环。
关键人物与案例研究
梁文锋的背景使其独特地适合这种混合模式。在创立DeepSeek之前,他是幻方量化(High-Flyer Quantitative)的创始人,这是中国最大的量化对冲基金之一,管理着超过100亿美元的资产。幻方量化的算法交易系统——每天处理数TB的市场数据——使梁文锋在高性能计算、GPU集群和大规模数据管道方面拥有深厚专业知识。这一技术基础直接迁移到AI训练基础设施。
“独裁条款”结构在历史上也有先例。在西方,像OpenAI这样的公司最初以非营利形式成立,以使研究免受利润动机影响,但最终在资本压力下转向了封顶利润结构。梁文锋的做法不同:他通过一种特殊类别的股份保留对DeepSeek董事会的100%投票控制权,同时利用幻方量化的利润作为永久性、非稀释性的资金来源。这在结构上类似于Paul Allen用个人财富资助艾伦人工智能研究所(AI2),但规模更大,且采用营利性实体。
| 公司 | 融资模式 | 创始人控制权 | AGI专注度 | 当前状态 |
|---|---|---|---|---|
| DeepSeek | 通过量化利润自筹资金 | 绝对控制(独裁条款) | 是 | 研究阶段,开源 |
| 百度(文心一言) | 上市公司,VC支持 | 有限(董事会监督) | 部分 | 商业聊天机器人,企业服务 |
| 智谱AI | VC支持(融资超10亿美元) | 与投资者共享 | 部分 | 企业LLM,API服务 |
| 月之暗面(Moonshot AI) | VC支持(融资12亿美元) | 与投资者共享 | 否 | 消费者聊天机器人(Kimi) |
| OpenAI | 封顶利润,VC支持 | 有限(董事会结构) | 是 | 商业(GPT-4,ChatGPT) |
数据要点: DeepSeek是唯一一家创始人拥有绝对控制权且具备自我维持资金来源的中国主要AI实验室。这种组合使得研究时间线可以以十年计,而非季度计。
梁文锋的策略已吸引了顶尖人才。DeepSeek的研究团队包括数名前Google Brain和Microsoft Research科学家,他们被“为AGI研究提供无限算力”且不受产品截止日期干扰的承诺所吸引。该公司的薪酬