技术深度解析
2016年的生成式AI版图在架构上呈现碎片化,多种竞争范式各自与根本性局限搏斗。当时的明星GAN将生成过程构建为生成器(G)与判别器(D)的对抗游戏。虽然它能生成清晰图像,但训练 notoriously 困难,饱受模式崩溃(G仅产生有限样本变体)和不稳定收敛的困扰。并行发展的技术路线包括变分自编码器(VAE),其训练更稳定但输出通常更模糊;以及PixelRNN/PixelCNN等自回归模型,它们能以完美的似然估计逐像素生成图像,但因其序列性质而速度极其缓慢。
关键突破在2017年随着谷歌Vaswani等人的《Attention Is All You Need》论文到来。Transformer架构以自注意力机制取代循环,实现了训练时的大规模并行化。该技术最初应用于语言领域(BERT、GPT),但其真正的生成潜力由GPT仅解码器的自回归形式解锁。通过预测序列中的下一个token,这些模型能生成连贯的文本、代码,并如OpenAI的DALL-E所展示的那样,当应用于离散化的图像token时,能生成高保真图像。Transformer由此成为通用的规模化引擎。
一个通过经验发现并加速进展的关键原则是缩放定律。OpenAI在2020年的《神经语言模型的缩放定律》工作中表明,模型的损失可预测地随模型参数、数据集规模和计算预算的幂律函数下降。这提供了一张路线图:投资于规模以获取新能力。涌现能力,例如上下文学习和复杂指令遵循,似乎在达到特定规模阈值时突然出现,这是2016年范式未曾预测的现象。
当今的尖端模型通常是混合或统一架构。扩散模型(2015年提出,2020年由Ho等人推广)通过学习迭代去噪数据,在图像生成领域已基本取代GAN,提供了更优的训练稳定性和质量。Stable Diffusion(来自CompVis、Runway和Stability AI)等模型已将此能力开源。对于视频生成,如谷歌的VideoPoet或OpenAI的Sora等架构常采用扩散Transformer(DiT)或时空潜在补丁,将视频生成视为跨越三维时空连续体的下一个token预测问题的延伸。
| 模型范式(约2016年) | 核心优势 | 核心弱点 | 现代继任者(约2024年) |
|---|---|---|---|
| 生成对抗网络(GAN) | 高保真、清晰的样本 | 训练不稳定、模式崩溃 | 扩散模型(Stable Diffusion) |
| 自回归模型(PixelCNN) | 训练稳定、似然可处理 | 序列生成速度极慢 | 基于Transformer的自回归模型(GPT, Parti) |
| 变分自编码器(VAE) | 稳定、连续的潜在空间 | 输出模糊、质量较低 | 在扩散模型中用作潜在空间编码器(Stable Diffusion的VAE) |
| 统一趋势 | — | — | Transformer作为主干 + 模态特定编码器/解码器 |
数据启示: 该表格揭示了从专业化、脆弱的架构向稳健、可扩展基础的清晰演进。Transformer已成为主导性主干,旧有范式要么被取代(GAN → 扩散模型),要么降级为辅助角色(VAE),突显了行业向可扩展、通用型架构的转变。
关键参与者与案例研究
从学术概念到产业支柱的旅程,由策略各异的不同参与者驱动。OpenAI 从非营利研究实验室转型为有利润上限的公司,将其全部战略押注于缩放假说。其迭代发布GPT模型(最终推出GPT-4和GPT-4 Turbo)以及ChatGPT和DALL-E 3等消费级产品,展现了其专注于突破能力边界和推动用户直接采用。其与微软Azure的合作构建了强大的计算和分发引擎。
Google DeepMind 在DeepMind与谷歌Brain团队合并后,遵循双重路径:基础研究(例如Transformer、扩散模型)和集成化产品部署。其Gemini系列模型设计为原生多模态,旨在为从搜索到Workspace的整个谷歌生态系统提供动力。Oriol Vinyals和Quoc V. Le等研究人员在连接研究与大规模模型开发方面发挥了关键作用。
Meta 倡导激进的开放源代码战略,向社区发布Llama 2和Llama 3等基础模型。此举向竞争对手施压,吸引开发者心智份额,并利用全球创新来改进自身模型。其用于图像生成的Emu模型同样体现了这一开源与规模化结合的思路。