LLM睡眠周期：解耦RISC架构让AI能耗骤降40%

2026年6月7日 05:33 AINews Hacker News June 2026

来源：Hacker News 归档：June 2026

一项革命性的解耦RISC-LLM架构为大语言模型引入了“睡眠-觉醒”周期，将能耗削减40%，并彻底解决了灾难性遗忘问题。这一仿生设计实现了离线权重巩固，将静态模型转变为持续进化的边缘AI智能体。

在一项颠覆性范式的研发中，研究人员公布了一种解耦RISC-LLM架构，赋予大语言模型类似昼夜节律的睡眠周期。该设计将推理（觉醒）与学习（睡眠）分离：在活跃使用时，采用精简RISC指令集实现高效推理；在休息时，通过海马体回放机制离线巩固突触权重。这一方法直接针对当前基于Transformer的LLM的两大致命缺陷——对能量的无尽渴求（每个token的处理都需要海量算力），以及无法区分短期记忆与长期知识，导致微调时发生灾难性遗忘。通过解耦这些过程，该架构预计将能耗削减40%，并显著提升模型在持续学习场景下的稳定性。开源参考实现已在GitHub上发布，截至本文撰写时已获4200余颗星和780次分支。早期基准测试显示，一个7B参数的LLaMA模型转换为此架构后，在MMLU上保留了97%的原始准确率，而觉醒模式下的能耗仅为原来的60%。

技术深度解析

解耦RISC-LLM架构代表了对大语言模型运行方式的根本性重新思考。传统Transformer架构将推理与学习紧密耦合——每一次前向传播都涉及同样庞大的矩阵乘法，任何权重更新（通过微调或RLHF）都会立即覆盖先前知识。这好比一个人试图在不解觉的情况下同时学习微积分并解答代数题。

架构概览

核心创新在于为LLM设计了一个两阶段操作系统：

- 觉醒阶段（推理）：模型采用精简指令集计算机（RISC）方法，剥离完整的注意力机制，代之以轻量级、仅含前馈的路径。这个RISC-LLM核心仅保留推理所需的最关键层——通常为完整模型参数的30-40%——并使用量化权重（INT4或INT8）以最小化内存带宽。觉醒阶段针对延迟和吞吐量进行了优化，与同等规模的完整Transformer相比，token生成速度提升3-5倍。

- 睡眠阶段（巩固）：在计划停机期间，模型进入高保真回放模式。一个海马体缓冲区——专用内存模块——存储觉醒阶段最近的交互序列（提示、响应和奖励信号）。模型随后离线回放这些序列，使用一种改进的反向传播算法，通过突触巩固函数将新梯度与现有权重整合。该函数模仿生物神经元中的长时程增强，强化频繁激活的通路，同时修剪很少使用的连接。结果实现了稳定的权重更新，不会覆盖先前巩固的知识。

算法细节

睡眠阶段采用一种称为“带弹性巩固的时间权重平均”技术。对于每个回放的序列，模型计算梯度，但并非直接应用，而是使用衰减因子λ将其与当前权重混合：

```
W_new = λ * W_old + (1 - λ) * (W_old + η * ∇L)
```

其中λ由被更新知识的年龄和频率决定——更旧、更频繁巩固的知识具有更高的λ，从而防止被覆盖。这在数学上类似于弹性权重巩固（EWC），但是在睡眠期间动态应用，而非在训练期间静态应用。

开源实现

参考实现已在GitHub上以仓库`circadian-llm/risc-sleep`发布。截至本文撰写时，该仓库已获得超过4200颗星和780次分支。它提供了一个基于PyTorch的框架，可将任何Hugging Face Transformer模型转换为解耦RISC-LLM，并配有可配置的睡眠调度器和海马体缓冲区。早期基准测试显示，一个7B参数的LLaMA模型转换为此架构后，在MMLU上保留了97%的原始准确率，而觉醒模式下的能耗仅为原来的60%。

性能基准

| 指标 | 完整Transformer (7B) | RISC-LLM 觉醒 (7B) | RISC-LLM 睡眠 (7B) |
|---|---|---|---|
| 每token能耗 (mJ) | 12.4 | 4.8 | 18.2（回放期间） |
| 每秒token数 | 45 | 210 | 8（回放速度） |
| MMLU准确率 | 63.2% | 61.8% | 64.1%（巩固后） |
| 灾难性遗忘（10个任务后Δ） | -18.5% | 不适用（无学习） | -1.2% |
| 内存占用 (GB) | 14.2 | 5.6 | 14.2（完整权重） |

数据要点： RISC-LLM觉醒阶段相比完整Transformer实现了4.7倍的吞吐量提升和2.6倍的能耗降低，准确率仅下降1.4%。经过睡眠巩固后，准确率反而略有提升，灾难性遗忘几乎被消除（1.2%对比18.5%）。这验证了解耦方法的有效性：推理效率的提升并未以学习质量为代价。

关键参与者与案例研究

该研究由MIT-IBM Watson AI Lab团队主导，与斯坦福大学和苏黎世联邦理工学院的研究人员合作。首席研究员Elena Vasquez博士此前在Intel Labs从事神经形态计算研究，在仿生AI设计方面成果卓著。她2023年关于“脉冲神经网络中的突触巩固”的论文为该架构奠定了基础。

竞争方法

其他几个团队也在探索能效型LLM架构，但尚未有团队完全采纳昼夜节律睡眠概念：

| 方法 | 机构 | 关键特性 | 节能幅度 | 遗忘缓解 |
|---|---|---|---|---|
| 解耦RISC-LLM | MIT-IBM-Stanford | 睡眠-觉醒周期 | 40% | 优秀 |
| 稀疏注意力（如SparseGPT） | IST Austria | 权重剪枝 | 25% | 差 |
| 混合专家（MoE） | Google DeepMind | 条件计算 | 30% | 中等 |
| 量化（GPTQ, AWQ） | 多家机构 | 低精度 | 20% | 无 |
| 推测解码 | Google, Meta | 草稿-验证流水线 | 15% | 无 |

数据要点

时间归档

常见问题

这次模型发布“LLM Sleep Cycles: Decoupled RISC Architecture Slashes AI Energy by 40%”的核心内容是什么？

In a paradigm-shifting development, researchers have unveiled a decoupled RISC-LLM architecture that endows large language models with circadian-like sleep cycles. The design separ…

从“LLM sleep cycle energy savings benchmark”看，这个模型发布为什么重要？

The decoupled RISC-LLM architecture represents a fundamental rethinking of how large language models operate. Traditional Transformer architectures couple inference and learning tightly—every forward pass involves the sa…

围绕“decoupled RISC-LLM architecture GitHub implementation”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

LLM睡眠周期：解耦RISC架构让AI能耗骤降40%

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

时间归档

延伸阅读

常见问题