技术深度解析
黄仁勋的AGI主张基于一个具体、可衡量的解释:AI系统在多样化认知任务上达到或超越人类水平的能力。其技术基础是Transformer架构的大型语言模型(LLM)和多模态模型的规模化发展,这些模型已展现出意料之外的涌现能力。其引用的关键基准测试(虽未明言)包括:
* MMLU(大规模多任务语言理解): 涵盖STEM、人文和专业领域等57个学科的知识和问题解决能力测试。
* GPQA(研究生级防谷歌问答): 需要深度科学推理的挑战性数据集。
* HumanEval 和 MBPP: 代码生成基准测试。
* 专业资格考试: 美国律师考试、医学执照考试和大学先修课程考试等的模拟结果。
从架构上看,实现这些成果的路径不仅依赖于原始参数数量,更涉及复杂的创新:例如Mixtral 8x22B等混合专家(MoE)模型实现高效扩展;基于人类反馈的强化学习(RLHF)和直接偏好优化(DPO)用于模型对齐;检索增强生成(RAG)用于信息 grounding。至关重要的是,训练和服务这些模型的基础设施——以英伟达的Blackwell平台为典范——如今被设计为一个集成系统。Blackwell GPU配备了专用的Transformer引擎、第二代NVLink(支持1.8TB/s的无缝GPU间通信)以及用于加速数据流水线的解压缩引擎,将整个数据中心视为一个单一的、庞大的GPU。
开源项目在 democratizing 和验证这些能力方面至关重要。OpenCompass 仓库(由上海人工智能实验室开发)是一个领先的综合性评估平台,在将中国及全球模型与这些AGI相关任务进行基准测试方面发挥了关键作用。它的迅速普及凸显了社区对标准化评估的关注。另一个关键项目是 MLC LLM,它专注于实现LLM在不同硬件后端的高效部署,这是实现‘无处不在的AGI’的关键挑战。
| 基准测试 | 人类专家基线 | GPT-4 表现 | Claude 3 Opus 表现 | Gemini Ultra 表现 |
|---|---|---|---|---|
| MMLU (5-shot) | 89.8% (估计值) | 86.4% | 88.3% | 83.7% |
| GPQA Diamond | ~50% (博士水平) | 41.2% | 44.4% | 45.1% |
| Codeforces (编程) | 随评级变化 | ~前30% | ~前25% | ~前20% |
| 律师考试 (MBE) | ~70% (通过线) | ~76% | ~79% | ~74% |
数据洞察: 上表显示,在多项精心设计的学术和专业基准测试(如MMLU、律师考试)上,顶级模型在统计意义上已与人类专家难分伯仲甚至更优,这验证了黄仁勋技术论点的核心。然而,在GPQA等真正的尖端推理任务上,与人类专家之间仍存在可测量的差距,这凸显了围绕‘通用’智能的定义之争。
关键参与者与案例研究
AGI宣言瞬间重塑了竞争格局,形成了清晰的玩家梯队。
平台主权者:
* 英伟达: 不再仅仅是芯片制造商,其战略是拥有全栈能力。CUDA是其坚固的软件护城河。其AI Enterprise套件和新推出的NIM(英伟达推理微服务)为运行Meta、谷歌等公司的模型提供了优化容器,使英伟达平台成为默认的部署环境。黄仁勋正直接将其定义为‘下一次工业革命’。
* 微软: 凭借与OpenAI的深度合作(以及将GPT-4-Turbo等模型集成到Windows、Office和Azure的Copilot中),微软专注于将AGI级能力产品化,服务于企业和消费大众。其对应用层和云基础设施(Azure AI)的控制使其成为主导的分发渠道。
* Google DeepMind: 以实现AGI为创立使命,以Gemini系列模型以及在强化学习(AlphaFold、AlphaGo)和多模态推理领域的开创性研究作为回应。其优势在于基础研究以及从TPU硬件到谷歌搜索和Workspace的垂直整合。
模型先驱:
* OpenAI: 尽管内部动荡,其GPT系列定义了公众对AGI式能力的期待。其重点是在驾驭安全性和商业化的同时,向超智能方向推进能力。
* Anthropic: 以注重安全的先驱自居,凭借Claude 3强大的基准测试表现和宪法AI方法,吸引那些对无约束系统持谨慎态度的企业。
* Meta: 开源领域的冠军。通过以宽松许可证发布Llama 2和3,它引发了全球创新浪潮,迫使闭源玩家在成本和可访问性上展开竞争。其战略是通过使模型层商品化并确保其生态系统无处不在来取胜。