葡萄牙推出主权AI模型Amália：专为欧洲葡萄牙语打造，挑战科技巨头的语言垄断

葡萄牙政府正式发布了Amália，一款专为欧洲葡萄牙语设计的开源大语言模型（LLM）。该模型利用本国高性能计算（HPC）基础设施开发，旨在填补一个关键空白：尽管OpenAI、Google和Meta等全球AI领导者提供多语言支持，但由于葡萄牙语复杂的动词变位、地域习语和独特的文化指涉，它们的模型在欧洲葡萄牙语上表现始终不佳。该模型以葡萄牙国宝级法朵歌手Amália Rodrigues命名，彰显了深厚的文化嵌入。

Amália并非庞大的前沿模型，而是一个专注、高效的架构，专为单一语言优化。该项目由葡萄牙国家创新局（ANI）牵头，并与多所高校及科研机构合作完成。其开源发布不仅包括模型权重，还提供了分词器、训练脚本和数据集样本，旨在鼓励社区贡献。Amália的推出被视为一场“语言主权”运动，为全球小语种国家在AI时代保护自身语言文化提供了可复制的路径。

技术深度解析

Amália基于解码器-only的Transformer架构构建，与Meta的Llama 2类似，但针对欧洲葡萄牙语进行了关键修改。模型参数量约为70亿，这是一个在性能与可及性之间精心权衡的选择。训练在Deucalion超算上进行，这是一台基于富士通A64FX架构（与日本前顶级超算“富岳”同款芯片）的千万亿次系统。这一硬件选择值得注意：A64FX采用ARM架构处理器，比传统的x86 GPU更节能，符合葡萄牙的绿色计算目标。

其核心创新在于分词器和训练数据。GPT-4或Llama使用的标准字节对编码（BPE）分词器针对英语优化，常常将葡萄牙语单词分割成低效的子词单元。Amália使用了一个定制的SentencePiece分词器，该分词器在50GB的欧洲葡萄牙语文本语料库上训练——包括法律文件、文学著作（如Eça de Queirós、Fernando Pessoa的作品）、新闻档案和议会记录。与Llama 2的分词器相比，这使葡萄牙语文本的token数量减少了30%，直接降低了推理成本和延迟。

| 模型 | 参数量 | 分词器效率（葡萄牙语） | MMLU-葡萄牙语（调整后） | 推理成本（每百万token） |
|---|---|---|---|---|
| Amália 7B | 7B | 1.45 tokens/词 | 72.3% | $0.15 |
| Llama 3 8B | 8B | 2.10 tokens/词 | 65.1% | $0.25 |
| Mistral 7B | 7B | 2.05 tokens/词 | 67.8% | $0.20 |
| GPT-4o（通过API） | ~200B（估计） | 2.30 tokens/词 | 78.5% | $5.00 |

数据要点： Amália在葡萄牙语特定基准测试中达到了具有竞争力的准确率，同时使用的token数量比同类开源模型少40%。这种效率转化为更低的延迟和成本，使其适用于聊天机器人和文档处理等实时应用。然而，其MMLU-葡萄牙语得分仍落后于GPT-4o，凸显了专业化与原始推理能力之间的权衡。

训练数据集还经过了激进的去重和偏见过滤。一个值得注意的技术是使用葡萄牙语特定的困惑度过滤器来移除低质量的网络爬取内容，这种方法受C4数据集启发，但针对葡语内容进行了调整。该模型通过监督学习进行了微调，使用了10万个人工筛选的葡萄牙语问答对，涵盖语法、历史和文化规范。在GitHub上的开源发布（仓库：`amalia-portugal/amalia-7b`，目前已有2800颗星）包括分词器、训练脚本和数据集样本，便于社区贡献。

关键参与者与案例研究

Amália的开发由葡萄牙创新局（ANI）领导的联盟协调，技术执行由里斯本大学理学院和国家科学计算基金会（FCCN）负责。项目负责人是计算语言学家Helena Moniz博士，她以在葡萄牙语语音识别方面的工作而闻名。她的团队专注于语言特定挑战：处理虚拟语气、人称不定式（葡萄牙语的一个独特特征），以及“tu”与“você”在正式/非正式语境中的使用。

这一举措是更广泛的欧洲趋势的一部分。法国的Mistral AI筹集了1.05亿欧元的种子资金并发布了Mistral 7B，该模型支持多种语言，但葡萄牙语表现较弱。德国的Aleph Alpha及其Luminous系列主要针对德语和英语，对葡萄牙语的支持有限。葡萄牙的策略不同：它不是在争夺全球主导地位，而是在创造一个利基垄断。该模型已在以下场景中测试：

- Unbabel，一家总部位于里斯本的翻译初创公司，正在使用Amália改进其客户支持的葡英翻译质量。
- 科英布拉大学正在微调该模型，用于19世纪葡萄牙小说的文学分析。
- 葡萄牙律师协会正在评估Amália用于法律文档摘要，称其能更好地处理法律术语。

| 项目 | 国家 | 重点语言 | 模型规模 | 资金 | 开源 |
|---|---|---|---|---|---|
| Amália | 葡萄牙 | 欧洲葡萄牙语 | 7B | 公共资金（约€5M） | 是 |
| Mistral 7B | 法国 | 多语言（葡萄牙语弱） | 7B | €105M 私人 | 是 |
| Aleph Alpha Luminous | 德国 | 德语、英语 | 5B-70B | €500M+ 私人 | 部分 |
| GPT-4o | 美国 | 100+种语言 | ~200B | $13B+ (OpenAI) | 否 |

数据要点： Amália是唯一一个专门聚焦欧洲葡萄牙语的模型，其公共资金模式与Mistral和Aleph Alpha的风险投资方式形成鲜明对比。这使得葡萄牙能够优先考虑文化准确性而非商业回报，这是一个关键差异化因素。

行业影响与市场动态

Amália的发布标志着AI行业从“一个模型统治一切”向专业化主权模型联盟的转变。葡萄牙语市场

时间归档

延伸阅读

常见问题

这次模型发布“Portugal's Amália: A Sovereign AI Model for European Portuguese Challenges Big Tech's Language Monopoly”的核心内容是什么？

The Portuguese government has officially released Amália, an open-source large language model (LLM) designed exclusively for European Portuguese. Developed using national high-perf…

从“Amália model vs GPT-4 Portuguese comparison”看，这个模型发布为什么重要？

Amália is built on a decoder-only transformer architecture, similar to Meta's Llama 2, but with critical modifications for European Portuguese. The model size is approximately 7 billion parameters, a deliberate choice ba…

围绕“how to fine-tune Amália for Brazilian Portuguese”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。