技术深度解析
姜的核心论点建立在一个常被产品营销所掩盖的技术现实之上。生成式AI,无论是像GPT-4o这样的大语言模型,还是像Stable Diffusion 3这样的扩散模型,本质上都是一个下一词元或下一像素预测器。其架构基于Transformer,利用自注意力机制来权衡输入序列不同部分的重要性。在训练过程中,模型接触数十亿个示例,学习数据的统计分布。在生成时,它从这一学习到的分布中采样,根据提示产生最可能的序列。
这并非人类意义上的创造过程。一位人类画家选择一笔笔触,是因为它能传达特定情感,或者因为前一笔是失误,而他们决定将其融入画作。AI没有这样的内部状态。它没有对“失误”的记忆,也没有情感意图的能力。所谓的“创造力”只是训练数据统计平滑后涌现出的属性。这就是为什么模型常常产生“平均”结果——它们的设计本质上是收敛于最常见的模式。
一个关键的技术限制是缺乏世界模型或因果理解。尽管近期关于“世界模型”的研究(如DeepMind或开源项目Genesis——其物理模拟引擎在GitHub上拥有超过20,000颗星)旨在赋予AI对物理和因果关系的感知,但这些仍然是预测模型。它们根据前一帧预测视频的下一帧,不是因为它们理解重力,而是因为重力是训练数据中的一种统计规律。区别是深刻的:人类理解一个掉落的玻璃杯会碎,是因为因果链;AI预测玻璃杯会碎,是因为它见过这个模式一万次。
| 模型 | 类型 | 参数规模 | 关键限制(艺术意图) |
|---|---|---|---|
| GPT-4o | 大语言模型 | 约2000亿(估计) | 无内心独白或个人经验;基于概率而非信念生成文本。 |
| DALL-E 3 | 文生图 | 未知 | 无法解释*为何*选择特定构图;它是训练数据的统计拼贴。 |
| Sora | 视频生成 | 未知 | 缺乏对物理的因果理解;生成看似合理的运动,而非物理精确的动作。 |
| Stable Diffusion 3 | 文生图 | 约80亿 | 难以处理需要独特个人诠释的特定、非通用提示。 |
数据要点: 表格显示,在所有主流生成式AI架构中,核心限制并非分辨率或连贯性,而是缺乏内在的、有意图的自我。无论参数规模如何扩展,都无法从统计模型中创造出主观体验。正在构建的“世界模型”仍然是预测性的,而非体验性的。
关键参与者与案例研究
生成式AI领域的主要参与者已含蓄地承认了这一差距,但它们的策略各不相同。OpenAI(通过DALL-E 3和Sora)与Midjourney专注于最大化输出质量和用户愉悦感。它们的产品理念是让工具如此强大,以至于用户的意图成为唯一的瓶颈。然而,这掩盖了一个事实:所谓的“意图”往往只是一个简单的文本提示,而“创作”则是一个对提示进行迭代优化的过程,而非对图像本身的优化。用户变成了策展人,而非创作者。
Adobe及其Firefly模型采取了不同的方法:使用授权数据进行训练,并深度集成到其Creative Cloud套件中。Adobe的策略是将Firefly定位为“副驾驶”——一种生成素材的工具,然后由人类进行组装和优化。这承认了人类在最终创作行为中的作用,但它仍然依赖于相同的统计核心。“人类触感”被降级到编辑阶段。
一个对比鲜明的案例是开源社区。像ComfyUI(GitHub上超过50,000颗星)这样的项目允许对扩散过程进行精细控制,使艺术家能够操控潜在空间、控制网络和注意力图。这赋予了高级用户一种在黑盒API中不可能实现的自主权。然而,即使是ComfyUI,也只是在统计景观中导航的工具,而非创造新景观的工具。
| 公司/产品 | 策略 | 核心产品 | 用户角色 | 艺术意图差距是否被解决? |
|---|---|---|---|---|
| OpenAI (DALL-E 3) | 最大化质量与连贯性 | 文生图API | 策展人/提示工程师 | 否;依赖用户通过提示提供意图。 |
| Midjourney | 社区与美学优化 | 基于Discord的图像生成 | 策展人 | 否;关注输出美感,而非过程。 |
| Adobe Firefly | 授权数据+集成 | Creative Cloud插件 | 副驾驶/编辑 | 部分解决;人类编辑最终输出。 |
| ComfyUI (开源) | 精细用户控制 | 基于节点的工作流 | 技术艺术家 | 赋能用户,但仍受限于统计边界。 |
数据要点: 这些案例表明,无论策略如何,所有参与者都在处理同一个根本问题:AI缺乏内在意图。OpenAI和Midjourney通过优化输出来绕过它,Adobe通过将人类置于循环中来弥补它,而开源社区则通过赋予用户更多控制权来对抗它。但没有任何一种方法能解决姜所指出的核心问题:机器本身并不创造;它只是组合。