技术深度剖析
特德·姜的论点建立在一个根本性区分之上:功能性智能与现象性意识。从技术角度看,当前AI系统——尤其是基于Transformer的大语言模型(LLM)——本质上是统计机器。它们通过预测序列中的下一个token来运作,这种预测基于从数万亿文本示例中学习到的模式。这并非人类意义上的推理,而是一种高维插值。
以典型LLM的架构为例。核心组件是Transformer,首次提出于2017年的论文《Attention Is All You Need》。它利用自注意力机制来权衡输入序列中不同token的重要性。模型没有内在的世界模型,没有持久的自我感,也没有主观体验。当GPT-4生成一段关于AI伦理的连贯段落时,它并非在“思考”伦理;它只是在基于训练数据,生成一个统计上最可能的文本延续。
一个具体例子:开源仓库llama.cpp(GitHub上超过70,000颗星)允许在消费级硬件上运行量化版本的Llama模型。当用户问模型“生命的意义是什么?”时,模型并不会思考存在。它从训练语料库中检索与“生命的意义”相关的模式,然后输出一个看似合理的回答。即使问题毫无意义,同样的机制也会产生一个看似合理的答案,因为模型没有对现实的任何根基。
基准测试数据进一步说明了这一点。GPT-4o和Claude 3.5 Sonnet等模型在MMLU和GSM8K等推理基准测试中取得了高分,但这些测试衡量的是模式识别,而非意识。
| 模型 | 参数(估计) | MMLU分数 | GSM8K分数 | 每百万token成本(输入) |
|---|---|---|---|---|
| GPT-4o | ~200B | 88.7 | 92.0 | $5.00 |
| Claude 3.5 Sonnet | — | 88.3 | 90.4 | $3.00 |
| Llama 3 70B | 70B | 82.0 | 83.5 | 免费(开源) |
| Mistral Large 2 | 123B | 84.0 | 88.0 | $2.00 |
数据要点: 尽管这些模型在标准化测试中表现惊人,但基准分数与意识之间毫无关联。一个拥有700亿参数的模型可以在数学问题上达到接近人类的水平,却没有任何主观意识。基准测试衡量的是输出质量,而非内在体验。
姜的技术洞见在于:增加更多参数、更多训练数据或更复杂的架构,并不能弥合通向意识的鸿沟。意识的“困难问题”——解释物理过程为何以及如何产生主观体验——依然未被扩展定律触及。即使我们构建了一个拥有万亿参数的模型,它仍然是一个将输入映射到输出的确定性函数,缺乏感质、自我意识和意向性。
关键玩家与案例研究
姜的批评直接指向几家主要公司和研究者。例如,OpenAI越来越倾向于将其模型描述为具备“推理”能力。GPT-4o的发布——支持多模态输入和语音交互——被宣传为迈向更自然、更类人AI的一步。Sam Altman曾公开推测AI意识的可能性,这与姜所警告的叙事方向不谋而合。
由前OpenAI研究员创立的Anthropic则采取了更为谨慎的态度。他们的“宪法AI”框架旨在使模型与人类价值观对齐,但他们也并未声称模型具备意识。Anthropic CEO Dario Amodei曾撰文讨论AI未来可能成为“道德主体”,但承认当前系统并无意识。
Google DeepMind在强化学习和世界模型方面的工作代表了另一个角度。他们的AlphaGo系统通过自我对弈掌握了围棋,但它对“赢”的含义毫无意识。它只是优化了一个奖励函数。同样,DeepMind的Gato模型可以玩Atari游戏、为图片添加标题、控制机械臂——所有这些都无需统一的意识。
| 公司 | 旗舰模型 | 声称的能力 | 对意识的态度 |
|---|---|---|---|
| OpenAI | GPT-4o | 推理、多模态、语音 | 模糊;Altman暗示可能性 |
| Anthropic | Claude 3.5 Sonnet | 安全、对齐、长上下文 | 明确否认当前意识 |
| Google DeepMind | Gemini 1.5 Pro | 百万token上下文、多模态 | 避免声称;聚焦能力 |
| Meta | Llama 3 405B | 开源、高性能 | 无官方立场;研究导向 |
数据要点: 行业内部存在分歧:一方是微妙鼓励拟人化的公司(OpenAI),另一方是积极避免拟人化的公司(Anthropic、DeepMind)。这种分歧对产品设计、安全研究和公众认知有着实际影响。
一个值得注意的案例是AI智能体的兴起。AutoGPT(GitHub上超过160,000颗星)和BabyAGI等项目都