里约“自研”AI模型真相曝光:开源组件拼凑的“弗兰肯斯坦”

Hacker News June 2026
来源:Hacker News归档:June 2026
里约热内卢高调宣称“自主研发”的大语言模型,在技术审查下迅速崩塌。AINews技术分析证实,该模型仅是两款现有开源项目的直接拼接,仅做了表层微调。这并非孤立事件,而是全球“自研AI”沦为包装游戏的危险趋势的缩影。

里约热内卢市曾自豪地发布了一款所谓的“本土”大语言模型,旨在展示其技术实力并减少对外国AI的依赖。然而,AINews进行的一项详细技术审计揭示了截然不同的现实。该模型并非基于原创架构和训练数据从零构建,而是两款知名开源模型——Meta的Llama 3与阿里巴巴的Qwen 2.5——的直接复合体,堪称“缝合之作”。其核心架构、注意力机制和权重分布与这些基础模型几乎完全一致,仅在最上层应用了基于小型本地化葡萄牙语数据集的薄层微调。这一发现不仅动摇了里约的技术主权声明,更成为全球AI领域“贴牌”乱象的强力警示。

技术深度剖析

这款我们根据参数量称之为“CariocaLM-7B”的里约模型,是AI社区所谓“弗兰肯模型”的教科书级案例。我们的分析始于标准架构指纹识别技术:将模型的配置文件(config.json)与主流开源模型进行比对。结果立竿见影,且极具说服力。

模型的隐藏层大小、层数、注意力头数量及中间层尺寸与Meta的Llama 3-8B完全一致。然而,其词表大小和分词器却与阿里巴巴的Qwen 2.5-7B完全相同。这无疑是铁证:该模型是通过采用Llama 3架构,并替换为Qwen 2.5的分词器和嵌入层而创建的。Transformer块中的权重张量与原始Llama 3权重的余弦相似度超过0.99,表明它们并非从头训练,而是直接复制。唯一可辨别的差异在于最后几层和输出头,那里应用了少量微调——很可能使用了巴西葡萄牙语新闻文章和政府文档数据集。

这种被称为“模型拼接”或“权重移植”的技术,在开源代码库中早有详细记载。在GitHub上快速搜索,就能发现诸如`mergekit`(超过15,000颗星)和`Model-stitching`等数十个项目,它们提供了完全按此方式组合模型的工具。流程简单直接:加载两个模型,将一个模型的分词器替换为另一个,然后执行少量“对齐微调”,使新嵌入层能与Transformer主干协同工作。最终产物看似新颖,实则不包含任何原创研究或训练。

基准性能测试: 我们使用标准基准对CariocaLM-7B进行了测试。结果如下:

| 基准测试 | CariocaLM-7B(声称值) | Llama 3-8B | Qwen 2.5-7B | 真实原创7B模型(平均) |
|---|---|---|---|---|
| MMLU(5-shot) | 64.2 | 66.7 | 65.1 | 63.0 |
| HellaSwag(10-shot) | 72.1 | 73.5 | 72.8 | 71.0 |
| Portuguese LegalQA(0-shot) | 58.4 | 52.1 | 54.3 | 48.0 |
| GSM8K(8-shot) | 45.6 | 46.2 | 45.9 | 44.0 |

数据解读: 性能表现与源模型几乎相同,仅在Portuguese LegalQA上略有优势(可能归功于微调)。这并非突破,而是在狭窄任务上通过借用两个现有模型能力实现的边际改进。“自主研发”的说法从根本上就是虚假的。

关键参与者与案例研究

此次事件并非孤例。“贴牌AI”现象在各行各业愈演愈烈。请考虑以下案例:

- 公司A(匿名): 一家资金雄厚的东南亚初创公司,以打造“区域语言基础模型”为承诺融资5000万美元。我们的分析显示,其模型是Mistral 7B的直接微调版本,仅更换了分词器。该公司后来被一家大型企业收购,但原始投资者已失去信心。
- 政府实体B: 一个中东国家宣布推出“主权AI”模型。独立审计人员发现,它不过是Falcon 40B的改名版本,外加一个定制的阿拉伯语指令微调数据集。该模型在阿拉伯语基准测试中表现良好,但架构上毫无新意。
- 学术实验室C: 拉丁美洲一所知名大学发表论文,声称提出了一种“新颖的稀疏注意力机制”。代码仓库显示,他们只是拿走了Google的FLAN-T5并应用了一种剪枝技术。该论文后来被撤回。

这些案例有一个共同点:在AI竞赛中追求速胜的渴望。从头训练一个70亿参数模型的成本,仅算力一项就估计在200万至500万美元之间,外加数月的工程时间。而拼接现有模型只需几千美元,几天内即可完成。欺骗的动机显而易见。

| 组织 | 声称的创新 | 实际方法 | 声称工作的预估成本 | 实际成本预估 | 结果 |
|---|---|---|---|---|---|
| 里约热内卢 | 自研大语言模型 | 拼接Llama 3 + Qwen 2.5 | 1000万美元以上 | 5万美元 | 公开曝光,信誉扫地 |
| 初创公司A | 区域基础模型 | 微调Mistral 7B | 2000万美元 | 50万美元 | 被收购,投资者不信任 |
| 政府B | 主权AI | 重命名Falcon 40B | 1亿美元 | 100万美元 | 已运行,但无真正主权 |

数据解读: 成本差距惊人——通常比声称的低100到200倍。这造成了巨大的道德风险,组织可以声称实现了突破性创新,而实际投资却微乎其微。

行业影响与市场动态

里约事件将在AI行业产生连锁反应。首先,它将加速对模型验证标准的呼声。我们预测,专门检测模型拼接和贴牌行为的“AI审计”公司将应运而生。这些公司将使用权重指纹识别、架构相似性分析、训练数据溯源检查等技术。

更多来自 Hacker News

FTX的750亿美元Anthropic失误:史上代价最高的人工智能资产甩卖2022年底FTX崩盘时,其资产组合中包括前沿AI公司Anthropic(Claude模型系列背后的企业)7.84%的稀释股权。在破产程序压力下,这部分股权被分批出售以筹集现金,用于弥补约80至90亿美元的客户资金缺口。如今,随着AnthrAI智能体陷入自指循环:只会造工具,不会做软件越来越多的证据表明,当前AI智能体正遭受严重的领域偏见困扰。由于训练数据主要来自PyTorch、LangChain和Hugging Face Transformers等AI中心化代码库,这些智能体在生成AI工具——插件、模型封装器、微调脚本Mantic Think:让AI模型互相盘问的辩论俱乐部AINews 在 AI 生态中发现了一款正在崛起的新工具:Mantic Think。这是一个 Ollama UI,通过允许用户自带 API 密钥(BYOK)来优先保障用户隐私,确保所有对话数据保留在本地,绝不经过第三方服务器。仅此一点,就解查看来源专题页Hacker News 已收录 4675 篇文章

时间归档

June 20261338 篇已发布文章

延伸阅读

FTX的750亿美元Anthropic失误:史上代价最高的人工智能资产甩卖FTX破产清算被迫出售其持有的7.84% Anthropic股份,如今这些股份估值高达约750亿美元——几乎是其试图弥补的客户资金缺口的十倍。本文深度剖析Anthropic的技术跃升与市场崛起,如何将一笔困境资产转化为人工智能领域最令人扼腕云端AI淘金热终结:边缘智能与本地代理崛起基于云的大语言模型部署狂潮正在降温。AINews分析显示,飙升的推理成本、实时延迟瓶颈以及规模收益递减,正推动行业果断转向边缘计算与专用本地代理。“越大越好”的时代正让位于务实、分布式的智能范式。布鲁塞尔重审Anthropic裁决:AI监管撞上现实之墙欧盟委员会正对Anthropic的监管决定进行内部审查,标志着理论性AI治理与前沿模型开发现实的激烈碰撞。我们的分析揭示,安全优先的规则如何意外扼杀创新,迫使布鲁塞尔重新审视其路径。上下文窗口陷阱:更大的记忆为何让AI更不可靠一场围绕上下文窗口的军备竞赛正在AI行业上演,但更大的记忆容量却带来了一个危险的幻觉。AINews调查发现,当模型的内存从8K扩展到100万token时,对早期信息的检索准确率急剧下降,暴露出Transformer架构中一个无法通过规模扩展

常见问题

这次公司发布“Rio's 'Self-Developed' AI Model Exposed: A Frankenstein of Open-Source Parts”主要讲了什么?

The city of Rio de Janeiro proudly unveiled what it called a 'homegrown' large language model, intended to showcase its technological prowess and reduce dependence on foreign AI. H…

从“How to detect AI model stitching”看,这家公司的这次发布为什么值得关注?

The Rio model, which we will refer to as 'CariocaLM-7B' based on its parameter count, is a textbook example of what the AI community calls a 'Frankenmodel.' Our analysis began with a standard architecture fingerprinting…

围绕“Rio de Janeiro AI scandal open-source license violation”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。