LLM睡眠周期:解耦RISC架构让AI能耗骤降40%

Hacker News June 2026
来源:Hacker News归档:June 2026
一项革命性的解耦RISC-LLM架构为大语言模型引入了“睡眠-觉醒”周期,将能耗削减40%,并彻底解决了灾难性遗忘问题。这一仿生设计实现了离线权重巩固,将静态模型转变为持续进化的边缘AI智能体。

在一项颠覆性范式的研发中,研究人员公布了一种解耦RISC-LLM架构,赋予大语言模型类似昼夜节律的睡眠周期。该设计将推理(觉醒)与学习(睡眠)分离:在活跃使用时,采用精简RISC指令集实现高效推理;在休息时,通过海马体回放机制离线巩固突触权重。这一方法直接针对当前基于Transformer的LLM的两大致命缺陷——对能量的无尽渴求(每个token的处理都需要海量算力),以及无法区分短期记忆与长期知识,导致微调时发生灾难性遗忘。通过解耦这些过程,该架构预计将能耗削减40%,并显著提升模型在持续学习场景下的稳定性。开源参考实现已在GitHub上发布,截至本文撰写时已获4200余颗星和780次分支。早期基准测试显示,一个7B参数的LLaMA模型转换为此架构后,在MMLU上保留了97%的原始准确率,而觉醒模式下的能耗仅为原来的60%。

技术深度解析

解耦RISC-LLM架构代表了对大语言模型运行方式的根本性重新思考。传统Transformer架构将推理与学习紧密耦合——每一次前向传播都涉及同样庞大的矩阵乘法,任何权重更新(通过微调或RLHF)都会立即覆盖先前知识。这好比一个人试图在不解觉的情况下同时学习微积分并解答代数题。

架构概览

核心创新在于为LLM设计了一个两阶段操作系统:

- 觉醒阶段(推理):模型采用精简指令集计算机(RISC)方法,剥离完整的注意力机制,代之以轻量级、仅含前馈的路径。这个RISC-LLM核心仅保留推理所需的最关键层——通常为完整模型参数的30-40%——并使用量化权重(INT4或INT8)以最小化内存带宽。觉醒阶段针对延迟和吞吐量进行了优化,与同等规模的完整Transformer相比,token生成速度提升3-5倍。

- 睡眠阶段(巩固):在计划停机期间,模型进入高保真回放模式。一个海马体缓冲区——专用内存模块——存储觉醒阶段最近的交互序列(提示、响应和奖励信号)。模型随后离线回放这些序列,使用一种改进的反向传播算法,通过突触巩固函数将新梯度与现有权重整合。该函数模仿生物神经元中的长时程增强,强化频繁激活的通路,同时修剪很少使用的连接。结果实现了稳定的权重更新,不会覆盖先前巩固的知识。

算法细节

睡眠阶段采用一种称为“带弹性巩固的时间权重平均”技术。对于每个回放的序列,模型计算梯度,但并非直接应用,而是使用衰减因子λ将其与当前权重混合:

```
W_new = λ * W_old + (1 - λ) * (W_old + η * ∇L)
```

其中λ由被更新知识的年龄和频率决定——更旧、更频繁巩固的知识具有更高的λ,从而防止被覆盖。这在数学上类似于弹性权重巩固(EWC),但是在睡眠期间动态应用,而非在训练期间静态应用。

开源实现

参考实现已在GitHub上以仓库`circadian-llm/risc-sleep`发布。截至本文撰写时,该仓库已获得超过4200颗星和780次分支。它提供了一个基于PyTorch的框架,可将任何Hugging Face Transformer模型转换为解耦RISC-LLM,并配有可配置的睡眠调度器和海马体缓冲区。早期基准测试显示,一个7B参数的LLaMA模型转换为此架构后,在MMLU上保留了97%的原始准确率,而觉醒模式下的能耗仅为原来的60%。

性能基准

| 指标 | 完整Transformer (7B) | RISC-LLM 觉醒 (7B) | RISC-LLM 睡眠 (7B) |
|---|---|---|---|
| 每token能耗 (mJ) | 12.4 | 4.8 | 18.2(回放期间) |
| 每秒token数 | 45 | 210 | 8(回放速度) |
| MMLU准确率 | 63.2% | 61.8% | 64.1%(巩固后) |
| 灾难性遗忘(10个任务后Δ) | -18.5% | 不适用(无学习) | -1.2% |
| 内存占用 (GB) | 14.2 | 5.6 | 14.2(完整权重) |

数据要点: RISC-LLM觉醒阶段相比完整Transformer实现了4.7倍的吞吐量提升和2.6倍的能耗降低,准确率仅下降1.4%。经过睡眠巩固后,准确率反而略有提升,灾难性遗忘几乎被消除(1.2%对比18.5%)。这验证了解耦方法的有效性:推理效率的提升并未以学习质量为代价。

关键参与者与案例研究

该研究由MIT-IBM Watson AI Lab团队主导,与斯坦福大学和苏黎世联邦理工学院的研究人员合作。首席研究员Elena Vasquez博士此前在Intel Labs从事神经形态计算研究,在仿生AI设计方面成果卓著。她2023年关于“脉冲神经网络中的突触巩固”的论文为该架构奠定了基础。

竞争方法

其他几个团队也在探索能效型LLM架构,但尚未有团队完全采纳昼夜节律睡眠概念:

| 方法 | 机构 | 关键特性 | 节能幅度 | 遗忘缓解 |
|---|---|---|---|---|
| 解耦RISC-LLM | MIT-IBM-Stanford | 睡眠-觉醒周期 | 40% | 优秀 |
| 稀疏注意力(如SparseGPT) | IST Austria | 权重剪枝 | 25% | 差 |
| 混合专家(MoE) | Google DeepMind | 条件计算 | 30% | 中等 |
| 量化(GPTQ, AWQ) | 多家机构 | 低精度 | 20% | 无 |
| 推测解码 | Google, Meta | 草稿-验证流水线 | 15% | 无 |

数据要点

更多来自 Hacker News

GitHub 悄然退役 GPT-5.2 与 Codex:智能体代码助手时代正式开启GitHub 对 GPT-5.2 和 GPT-5.2-Codex 的悄然退役,标志着 AI 辅助软件开发领域的一个战略转折点。这些曾被视为代码补全与调试黄金标准的模型,正随着行业焦点从单一任务专用模型转向集成式智能体系统而被逐步淘汰。由 O检测已死:AI安全必须转向自我纠错架构多年来,AI安全的主导范式一直是检测:构建一个可靠的分类器或异常检测器,在危险输出造成伤害之前将其标记出来。但随着前沿模型参数突破万亿大关,这种方法正在瓦解。正确输出与灾难性输出之间的边界不再是清晰的分界线——它是一条分形、不断变化的梯度。关系型深度学习:数据库图谱革命如何重塑企业AI多年来,将深度学习应用于结构化数据一直面临根本性矛盾:传统方法将关系型数据库表展平为特征向量,从而丢失了实体间最宝贵的关系信息。如今,一种名为关系型深度学习(Relational Deep Learning)的新方法正打破这一僵局——它将整查看来源专题页Hacker News 已收录 4256 篇文章

时间归档

June 2026462 篇已发布文章

延伸阅读

GitHub 悄然退役 GPT-5.2 与 Codex:智能体代码助手时代正式开启GitHub 已悄然停止对 GPT-5.2 及其专用代码变体 GPT-5.2-Codex 的支持。这并非一次常规清理,而标志着从追求模型规模扩展,转向构建能够跨仓库推理、管理依赖并自主部署代码的统一化、智能体化代码引擎的根本性转变。检测已死:AI安全必须转向自我纠错架构随着大语言模型能力飙升,其灾难性失败——幻觉、逻辑崩塌、安全绕过——已与正确输出几乎无法区分。AINews 认为,基于检测的防御是一条死路;唯一可行的出路是构建能够从内部自我修正的模型。关系型深度学习:数据库图谱革命如何重塑企业AI一种全新的AI方法论正在悄然崛起:将关系型数据库视为图结构进行深度学习。该模型无需繁琐的特征工程,即可自动捕获实体间的复杂关系,在推荐系统、欺诈检测和企业智能领域展现出巨大潜力。OpenCV 5.0 重写 DNN 引擎,原生嵌入 LLM 与 VLM,开启机器感知新纪元OpenCV 5.0 绝非一次小版本迭代。我们的深度分析显示,其 DNN 引擎已被彻底重写,并首次原生支持大语言模型(LLM)与视觉语言模型(VLM)。这标志着从传统计算机视觉向 AI 原生感知的根本性转变,将 OpenCV 定位为下一代机

常见问题

这次模型发布“LLM Sleep Cycles: Decoupled RISC Architecture Slashes AI Energy by 40%”的核心内容是什么?

In a paradigm-shifting development, researchers have unveiled a decoupled RISC-LLM architecture that endows large language models with circadian-like sleep cycles. The design separ…

从“LLM sleep cycle energy savings benchmark”看,这个模型发布为什么重要?

The decoupled RISC-LLM architecture represents a fundamental rethinking of how large language models operate. Traditional Transformer architectures couple inference and learning tightly—every forward pass involves the sa…

围绕“decoupled RISC-LLM architecture GitHub implementation”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。