技术深度解析
AI创造就业的说法有其技术基础:整个AI堆栈的每一层都需要人力劳动。在底层,训练像GPT-4、Claude或Llama 3这样的开源替代品等大语言模型,需要海量数据集。这催生了数据工程师这一角色——负责策划、清洗和标注训练数据的专业人士。例如,作为网络文本主要来源的Common Crawl数据集包含超过2500亿个页面,但只有一小部分是可用的。Scale AI和Surge AI等公司雇佣了数千名标注员和质量保证专家,用于过滤有害内容、对齐输出以及创建指令微调数据集。一次针对700亿参数模型的单次训练运行,可能需要超过10000人时的数据工作。
在数据层之上是模型对齐流水线。基于人类反馈的强化学习(RLHF)现在已是标准做法。OpenAI、Anthropic和Google DeepMind都雇佣了大量合同工来评估模型输出,对回答进行安全性和有用性排序。这不是一个短暂的需求;随着模型能力增强,对齐工作也变得更加复杂。GitHub上的开源库trl(Transformer Reinforcement Learning)已获得超过10000颗星,被初创公司用于实现RLHF,但其中的人机协同环节仍然劳动密集。
然后是推理基础设施。大规模部署LLM需要GPU集群、负载均衡器和监控系统。Together AI和Replicate等公司运营着托管推理服务,雇佣了专门从事GPU优化的DevOps工程师。AI代理——能够执行多步骤任务的自主系统——的兴起,催生了代理操作员或工作流架构师这一角色。这些专业人士设计提示链、集成API并处理错误恢复。例如,开源框架LangChain(GitHub上超过10万颗星)允许开发者构建复杂的代理工作流,但将这些系统投入生产需要持续的人工监督。一次代理故障——比如一次幻觉API调用或错误的工具选择——可能引发连锁反应,需要人工介入。
最后,硬件是直接的就业创造者。英伟达的GPU供应链涉及芯片设计师(VLSI工程师)、CUDA和TensorRT的软件工程师以及数据中心技术人员。仅该公司的H100 GPU就需要一个复杂的全球供应链:台积电制造芯片,SK海力士提供HBM3内存,富士康组装模块。每一步都雇佣了数千人。根据行业估计,全球AI芯片市场预计将从2023年的530亿美元增长到2032年的2270亿美元,这与半导体设计、制造和部署领域的就业直接相关。
| 层级 | 工作角色 | 示例公司 | 2024年全球预估就业人数 |
|---|---|---|---|
| 数据策划 | 数据工程师、标注员、QA专家 | Scale AI, Surge AI, Appen | 500,000+ |
| 模型对齐 | RLHF合同工、安全研究员 | OpenAI, Anthropic, Google | 100,000+ |
| 推理与代理 | 代理操作员、工作流架构师、DevOps | Together AI, Replicate, LangChain | 200,000+ |
| 硬件 | 芯片设计师、晶圆厂技术员、数据中心运维 | NVIDIA, TSMC, Foxconn | 1,000,000+ |
数据要点: AI就业生态系统并非单一结构;它涵盖了从低技能数据标注到高技能芯片设计的各个层面。最大的就业量在硬件领域,但增长最快的是与代理相关的岗位,预计到2026年将翻一番。
关键玩家与案例研究
有几家公司很好地诠释了黄仁勋的论点。英伟达本身是最直接的例子。该公司的员工人数从2019年的13000人增长到2024年的36000多人,增幅达177%。这一增长是由AI需求驱动的。仅英伟达的数据中心业务在2024财年就达到了475亿美元,而前一年为150亿美元。该公司目前正在台湾和美国建设新的园区,每个园区都需要数千名建筑工人、工程师和技术人员。
Scale AI是数据驱动就业创造的典型案例。该公司成立于2016年,现在拥有超过1200名全职员工,并与全球超过10万名远程工作者签订合同,从事数据标注和RLHF工作。其估值在2024年达到140亿美元。该公司的平台支持从自动驾驶数据到LLM微调的各种需求。Scale AI的CEO Alexandr Wang曾表示,对高质量训练数据的需求是“贪得无厌”的,这直接反驳了AI消灭就业的观点。
Anthropic,这家开发Claude的AI安全公司,雇佣了超过1000人,其中包括一个庞大的“宪法AI”研究员和红队测试团队。该公司以安全为中心的方法需要持续的人工评估,从而创造了五年前不存在的角色。同样,OpenAI已从一个小型研究实验室发展到超过3000名员工,其招聘职位包括“提示工程师”等角色。