绿色AI的数据中心转向：ICT4S研究为何对可持续机器学习至关重要

2026年6月26日 17:35 AINews GitHub June 2026

⭐ 4

一项来自第八届ICT可持续发展国际会议（ICT4S）的最新实证研究，挑战了绿色AI领域长期主导的模型中心叙事。通过系统分析数据质量、规模和预处理如何影响能耗，该研究为真正实现可持续的机器学习开辟了新前沿。

多年来，绿色AI运动一直聚焦于模型架构——缩小参数、剪枝层数、设计高效Transformer。ICT4S 2022论文《数据中心绿色AI：一项探索性实证研究》的配套仓库标志着一个根本性转向。该研究托管在GitHub上，仓库名为'greenaiproject/ict4s22'，提供了一个严谨的实证框架来衡量数据本身的能源成本。其核心论点看似简单：我们输入模型的数据，从收集、清洗到标注和增强，都携带着巨大且常被忽视的碳足迹。通过在基准数据集上进行受控实验，作者们证明数据质量——特别是标签噪声、缺失值和类别不平衡——会显著增加能耗。

技术深度解析

'greenaiproject/ict4s22'仓库并非一个新模型或花哨的演示；它是一套方法论工具包和一组实证结果。其核心在于，该研究通过将数据相关的能源成本与模型训练成本解耦，将'数据中心绿色AI'的概念付诸实践。实验架构简单但有力：作者们采用固定模型架构（标准ResNet-50和BERT-base变体），系统性地扰动训练数据，同时使用硬件功率计和CodeCarbon等软件库测量能耗。

关键技术组件：

1. 能耗测量框架： 研究结合使用RAPL（Running Average Power Limit）测量CPU/DRAM，以及NVIDIA的nvidia-smi测量GPU功耗。这种双重方法提供了许多研究缺失的粒度——区分了数据加载（I/O密集型）和实际计算（计算密集型）的能源成本。

2. 数据扰动维度： 研究人员操控了四个关键数据属性：
- 标签噪声： 随机翻转一定比例的标签（5%、10%、20%）。
- 缺失值： 在表格数据中引入缺失特征（10%、30%、50%）。
- 类别不平衡： 对少数类进行下采样，创建1:10、1:50、1:100的比例。
- 数据增强： 应用标准增强流程（随机裁剪、颜色抖动、mixup），并测量其能源开销。

3. 可复现性基础设施： 仓库包含Dockerfile、Conda环境YAML文件和自动化整个流程的Shell脚本。这一点至关重要，因为能耗测量对环境高度敏感。

基准测试结果（来自该研究）：

| 数据质量条件 | 相比清洁基线的能耗增加 | 准确率下降（Top-1） | 每轮能耗（kWh） |
|---|---|---|---|
| 清洁（基线） | 0% | 76.3% | 0.12 |
| 20%标签噪声 | +38% | 68.1% | 0.17 |
| 50%缺失特征 | +22% | 71.4% | 0.15 |
| 类别不平衡1:100 | +41% | 62.8% | 0.17 |
| 重度增强（Mixup） | +58% | 77.1% | 0.19 |

数据要点： 该表格揭示了非线性关系：20%的标签噪声使能耗增加38%，同时准确率下降超过8个百分点。这表明，投资于数据清洗（标签验证、去重）可能同时带来准确率和能源方面的回报——这在机器学习工程中实属罕见的双赢。

该仓库还包含一个新颖的指标：'每准确率点能耗'（EPA）。该指标将能耗按模型性能归一化，使从业者能够比较不同数据策略的效率。例如，重度增强实现了更高的准确率，但能耗增加了58%，导致其EPA比清洁基线差30%。这个指标是该研究最实用的贡献——它为团队提供了一个具体数字来优化。

关键参与者与案例研究

该研究由哥本哈根大学和哥本哈根IT大学的研究人员共同撰写，但真正的'参与者'是那些使这种分析成为可能的工具和框架。该仓库明确集成了两个主流的开源能耗追踪库：

- CodeCarbon： 一个Python包，基于硬件利用率和区域能源结构估算碳排放。它由一个包括Mila（魁北克人工智能研究所）和Comet.ml研究人员的联盟维护。CodeCarbon在GitHub上拥有超过1,800颗星，被Hugging Face等公司用于报告训练排放。
- Carbontracker： 一个更简单、更轻量的替代方案，由哥本哈根大学的研究人员（其中一些是这篇ICT4S论文的合著者）开发。它专注于实时GPU功耗监控。

案例研究：Hugging Face的'BLOOM'训练

一个与该研究论点相符的显著现实案例是BigScience对BLOOM模型（176B参数）的训练。该联盟发布了一份详细的碳审计报告，揭示数据预处理——特别是去重和分词——占项目总排放的近15%。这正是ICT4S研究试图揭示的那种隐藏成本。BLOOM团队使用了CodeCarbon，发现他们的数据管道在三个月内消耗了约25,000 kWh，相当于两个美国家庭的年用电量。

能耗追踪工具对比：

| 工具 | 粒度 | 硬件支持 | GitHub星数 | 主要限制 |
|---|---|---|---|---|
| CodeCarbon | 每次实验 | CPU, GPU, RAM | ~1,800 | 区域电网数据可能过时 |
| Carbontracker | 每轮 | 仅GPU | ~400 | 无CPU/RAM追踪 |
| Experiment Impact Tracker | 每次操作 | CPU, GPU, TPU | ~200 | 需要手动插桩 |

数据要点： 能耗追踪工具生态系统仍处于初期阶段，没有一种工具能提供实时的操作级粒度。这一差距既代表了风险（核算不准确），也代表了机遇。

常见问题

GitHub 热点“Green AI's Data-Centric Shift: Why the ICT4S Study Matters for Sustainable Machine Learning”主要讲了什么？

For years, the Green AI movement has fixated on model architecture—shrinking parameters, pruning layers, and designing efficient transformers. The companion repository for the ICT4…

这个 GitHub 项目在“How to measure energy consumption of data preprocessing in machine learning”上为什么会引发关注？

The 'greenaiproject/ict4s22' repository is not a new model or a flashy demo; it is a methodological toolkit and a set of empirical results. At its core, the study operationalizes the concept of 'data-centric Green AI' by…

从“Data-centric green AI vs model-centric green AI comparison”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 4，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。

绿色AI的数据中心转向：ICT4S研究为何对可持续机器学习至关重要

技术深度解析

关键参与者与案例研究

更多来自 GitHub

时间归档

延伸阅读

常见问题