技术深度解析
中卫项目的核心创新在于其实时编排层,它打通了两个传统上各自为政的系统:电网的监控与数据采集系统(SCADA)和数据中心的工作负载调度器。这并非简单的开关切换,而是一个持续的多变量优化问题。
架构: 系统采用定制的“能源感知调度器”(EAS),接收三路主要数据流:
1. 可再生能源发电预测: 一个基于Transformer的时间序列模型(基于5年本地气象与发电数据训练)可预测未来6小时的风光出力,准确率达92%。
2. 计算工作负载优先级队列: 每个任务都带有优先级标签(关键推理、批量训练、探索性研究)和灵活性评分(可延迟时长)。
3. 实时电网频率与电价信号: 系统还监测本地电网频率和现货电价,以便在可再生能源出力不足时选择购电,或在其过剩时反向售电。
算法匹配: EAS每30秒运行一次约束优化算法。其目标函数在最大化可再生能源消耗的同时,最小化任务完成时间的惩罚。例如,一个小模型的非紧急微调任务,若风力预报显示数小时后将增强,则可能被延迟4小时。相比之下,安防摄像头的实时视频推理请求永远不会被延迟,但在可再生能源低谷期,其功耗可能被限制在80%,剩余20%由一个小型10兆瓦时电池缓冲提供。
硬件集成: 项目采用定制的电力分配单元(PDU),可通过修改版的开源Kubernetes集群自动扩缩器,在毫秒级别对单个GPU服务器进行限电。团队fork了官方Kubernetes仓库,添加了自定义的“功耗感知”调度器插件。这个名为k8s-power-scheduler的fork仓库,自三个月前发布以来已获得1200颗星,贡献者来自阿里云和腾讯。
性能数据: 下表将中卫项目的指标与同区域同等规模(100兆瓦IT负载)的传统数据中心进行了对比。
| 指标 | 传统数据中心 | 中卫算电协同项目 | 改善幅度 |
|---|---|---|---|
| 可再生能源利用率 | 28% | 95% | +239% |
| 平均电力成本(美元/兆瓦时) | $65 | $22 | -66% |
| 碳强度(千克CO2/兆瓦时) | 480 | 35 | -93% |
| 所需电池储能(兆瓦时) | 200 | 10 | -95% |
| 训练任务完成时间(平均) | 100%基准 | 108%(慢8%) | -8% |
| 推理延迟(p99) | 100ms | 110ms | +10% |
数据要点: 权衡关系一目了然:计算任务上8%-10%的适度性能损失,换来了巨大的成本和环境效益。对于大多数AI工作负载——尤其是批量训练和非实时推理——这是一个可以接受的折中方案。电池储能减少95%是财务上的关键变革,因为电池通常占绿色数据中心资本成本的30%-40%。
关键参与者与案例研究
中卫项目是一个联合体项目,但有三家实体作为主要架构师脱颖而出。
1. 国网宁夏电力公司: 电网运营商提供了SCADA集成和绿色电力直供的监管批准,绕过了传统的电网电价结构。这既是技术壮举,也是政治成就,因为它需要一份特殊的“绿色电力直接购买协议”,实际上在可再生能源电站和数据中心之间建立了一条私有线路。
2. 浪潮信息: 硬件供应商提供了定制的PDU和修改后的服务器固件,支持对每个GPU进行功耗上限设定。浪潮一直是绿色数据中心硬件领域的低调领导者,该项目为其向全球超大规模云服务商销售提供了参考架构。
3. 北京智源人工智能研究院(BAAI): 开发能源感知调度器算法的研究合作伙伴。由前Google Brain研究员李伟博士领导的BAAI团队,在2025年USENIX ATC会议上发表了题为“面向间歇性可再生能源的弹性计算调度”的论文。他们的算法目前正以Apache 2.0许可证开源。
竞争方案对比: 下表将中卫模式与其他两种主流绿色数据中心策略进行了比较。
| 方案 | 示例项目 | 关键机制 | 可再生能源利用率 | 成本溢价 | 可扩展性 |
|---|---|---|---|---|---|
| 算电协同 | 中卫(本项目) | 动态工作负载迁移 | 95% | 总拥有成本降低40% | 高(需就近部署) |
| 电池缓冲绿色数据中心 | Google芬兰哈米纳 | 大型电池组+电网备用 | 80% | 总拥有成本增加15% | 中(电池成本高) |
| 碳感知云区域 | AWS“Carbon Black” | 跨区域迁移工作负载 | 60%(全球) | 总拥有成本增加5% | 高(需多区域覆盖) |