技术深度剖析
州检察长调查直指OpenAI运营的两大技术支柱:数据获取管道与API架构。反垄断关切的核心在于OpenAI与主要内容平台(如Reddit、Stack Overflow和美联社)签订独家数据许可协议的做法,这些协议实际上阻止了竞争对手获取同等高质量的训练数据。这构建了一条既是技术壁垒也是经济壁垒的“数据护城河”。从工程角度看,训练一个像GPT-5这样的前沿模型(估计1.8万亿参数)需要大约15-20万亿个高质量文本token。OpenAI的独家协议锁定了互联网上大量最精选、由人类生成的内容。Anthropic、Google DeepMind等竞争对手以及EleutherAI等开源项目被迫依赖合成数据或质量较低的网页抓取数据,这可能导致模型崩溃并降低推理任务的性能。
在消费者保护方面,调查针对OpenAI的数据处理实践。具体而言,检察长们正在审查用户对ChatGPT的输入、企业客户的API调用,甚至来自新“Voice Engine”的语音数据如何被反馈到训练管道中。OpenAI的隐私政策长期以来一直声明其可能使用用户内容来改进模型,但选择加入与选择退出的程度,以及数据删除请求缺乏细粒度控制,正受到严格审视。从技术上讲,这引发了关于“机器遗忘”的问题——即无需从头重新训练就能从已训练模型中移除特定用户数据的能力。当前最先进的遗忘方法,例如在GitHub上拥有超过1200颗星的开源仓库“TOFU”(面向遗忘的任务导向微调),在移除目标数据点方面可以达到高达95%的准确率,但仍存在灾难性遗忘或残留数据泄露的问题。OpenAI尚未为GPT-5发布一个稳健的遗忘框架,这使得遵守州级数据删除请求在技术上极具挑战性。
| 模型 | 参数规模 | 训练数据规模 | 独家数据协议 | MMLU得分 | 预估训练成本 |
|---|---|---|---|---|---|
| GPT-5 | ~1.8T(估) | 20T tokens | Reddit、AP、Stack Overflow、Shutterstock | 91.2 | 5亿美元以上 |
| Claude 4 | ~1.2T(估) | 15T tokens | 无(公共爬取+合成数据) | 89.8 | 3亿美元 |
| Gemini Ultra 2 | ~2.0T(估) | 25T tokens | YouTube、Google Books | 92.0 | 6亿美元 |
| Llama 4(开源) | 400B | 12T tokens | 无(仅公共数据) | 85.4 | 5000万美元 |
数据启示: OpenAI的独家数据协议使其MMLU得分比Claude 4高出1.4个百分点,但成本溢价高达2亿美元。仅使用公共数据的开源模型Llama 4,以GPT-5十分之一的训练成本,达到了其MMLU得分的93.6%。这表明数据护城河确实存在,但随着合成数据和改进训练算法的出现,其重要性正在下降。调查对数据排他性的关注,最终可能加速向合成数据管道的转变,这虽然能民主化模型训练,但也引入了模型崩溃的新风险。
关键角色与案例研究
此次调查由两党检察长联盟牵头。关键人物包括加州总检察长Rob Bonta(民主党),他在科技执法方面有激进记录,包括2023年针对亚马逊的反垄断诉讼;纽约州总检察长Letitia James(民主党),她成功解散了美国步枪协会,并曾针对加密货币交易所采取行动;以及得克萨斯州总检察长Ken Paxton(共和党),他曾领导多州联合行动起诉谷歌的搜索垄断。这种罕见的跨党派联合凸显了政治光谱两端对AI问题的深切担忧。
在行业方面,调查已经创造了赢家和输家。Anthropic,OpenAI的主要竞争对手,已公开将自己定位为“负责任的替代者”,并开始游说各州检察长采用其“宪法AI”框架作为合规标准。Anthropic于2026年初推出的Claude 4模型,内置了“审计日志”功能,记录其代理系统做出的每一个决策,这直接回应了州监管机构正在编纂的透明度要求。Google DeepMind则处于更复杂的境地:虽然其Gemini模型与OpenAI竞争,但Google本身正因搜索垄断问题受到美国司法部的单独反垄断同意令约束。该公司正在走钢丝,原则上支持州级AI监管,同时悄悄反对任何可能适用于其自身数据实践(例如YouTube视频抓取)的条款。
| 公司 | 模型 | 关键监管风险敞口 | 应对策略 | 2026年第二季度市值 |
|---|---|---|---|---|