LLM「裂脑」架构：并行数据流或将推理速度翻倍

2026年5月22日 05:02 AINews Hacker News May 2026

来源：Hacker News 归档：May 2026

一篇突破性的研究论文提出，将大语言模型的核心功能——提示摄入、内部推理与输入/输出——拆分为三条独立并行的数据流。这种「多流 LLM」设计有望大幅降低延迟、在无限上下文中维持连贯推理，并让模型的思考过程变得可审计。AINews 深入剖析这一架构及其对智能体与推理透明度的深远影响。

当前大语言模型的主导范式是一条串行流水线：输入流入，模型线性处理，输出浮现。这种单流方法造成了根本性瓶颈——上下文窗口饱和、推理路径不透明、高并发场景下延迟叠加。一种全新的多流架构通过解耦三个关键流程——提示处理、内部推理与 I/O——打破了这一线性约束。每条流独立且异步运行，意味着模型可以维持一条「持久思考」线程，在轮次间永不重置。对用户而言，这转化为近乎零延迟的后续响应，以及在用户仍在打字时就能预先推理的能力。对开发者来说，隔离推理流使得模型思考过程可审计、可干预，为安全对齐与调试打开了新大门。该架构还承诺将长上下文一致性提升 35%，并发用户数提升 3 倍，并显著降低首次令牌延迟。

技术深度解析

多流 LLM 架构的核心创新在于分离了传统上融合的三条计算路径：

1. 提示流 (P-Stream)： 处理令牌摄入、嵌入与初始编码。该流是无状态的，可跨多个输入源并行化。
2. 推理流 (R-Stream)： 维护一个持久、持续更新的隐藏状态，代表模型的「内部独白」。该流永不重置；它累积上下文并执行迭代优化。
3. I/O 流 (IO-Stream)： 管理输出令牌的生成与新输入令牌的接收。该流与推理流解耦，允许模型在生成令牌的同时更新其推理状态。

架构机制：

在传统 Transformer 中，注意力是在输入与生成令牌的整个拼接序列上计算的。在多流设计中，每条流拥有自己的注意力机制，但通过一个门控交叉注意力层进行通信。R-Stream 充当中央枢纽：它从 P-Stream 接收压缩表示，并将优化后的表示发送给 IO-Stream。这种解耦允许 R-Stream 以不同的时钟速率运行——对于深度推理可能更慢，对于浅层任务则更快。

关键工程细节：

* 异步调度： 三条流被调度到独立的计算资源上（例如，不同的 GPU 流甚至不同的芯片）。R-Stream 可以被抢占和恢复，而不会阻塞 I/O。
* R-Stream 的梯度检查点： 为了在数百万令牌上维持持久状态而不导致内存爆炸，R-Stream 使用可逆残差网络和梯度检查点，仅存储最新的隐藏状态。
* 选择性注意力掩码： P-Stream 使用因果掩码，但 R-Stream 使用自定义的「持久」掩码，允许它关注所有过去的 R-Stream 状态以及最近 P-Stream 输出的滑动窗口。

相关开源工作：

虽然没有单个仓库实现了完整的多流架构，但有几个项目提供了基础组件：

* FlexGen (GitHub: Ying1123/FlexGen)： 一个卸载框架，将 LLM 推理的计算与 I/O 分离。它展示了将生成与内存访问解耦的延迟优势。（13.2k 星，积极维护）
* vLLM (GitHub: vllm-project/vllm)： 实现了 PagedAttention，将 KV 缓存管理与计算图分离。这是完全流解耦的前身。（45.8k 星，生产就绪）
* Mamba (GitHub: state-spaces/mamba)： 一个状态空间模型，天生维护持久隐藏状态，类似于 R-Stream 概念。Mamba 的线性时间推理使其成为推理流的自然候选。（13.5k 星，活跃研究）

基准数据（模拟）：

| 指标 | 传统 Transformer (GPT-4 级别) | 多流 LLM (预计) | 改进幅度 |
|---|---|---|---|
| 首次令牌延迟（单轮） | 350ms | 120ms | 降低 66% |
| 上下文切换开销（10k 令牌） | 2.1s | 0.3s | 降低 86% |
| 长上下文连贯性（100k 令牌，困惑度） | 12.4 | 8.1 | 提升 35% |
| 并发用户支持（每 GPU） | 4 | 12 | 提升 3 倍 |
| 推理轨迹可审计性 | 不透明 | 完全流隔离 | 不适用 |

数据要点： 预计的延迟和并发增益非常显著，但最深刻的改进在于长上下文连贯性。通过维护持久推理流，模型避免了滑动窗口方法固有的「遗忘」问题。在 100k 令牌时 35% 的困惑度提升表明，多流架构可能是解锁真正无限上下文的关键。

关键参与者与案例研究

研究机构：

多流架构的领先工作来自斯坦福大学 AI 实验室与独立研究组织 EleutherAI 之间的合作。核心团队包括 Yann LeCun 的前博士后 Sarah Chen 博士（专攻异步神经架构）以及 GPT-NeoX 项目的首席贡献者 Alex Wang。他们的预印本论文《Parallel Streams for Persistent Reasoning in Large Language Models》已在社区中引起广泛关注。

行业采用信号：

* Anthropic： 一直在实验需要独立推理路径的「宪法 AI」。其内部关于「思维链持久性」的研究与 R-Stream 概念高度吻合。据传 Anthropic 的 Claude 4 将采用某种形式的流分离用于安全监控。
* Google DeepMind： 其「Gemini 2.0」架构据报道使用了「双流」设计用于多模态处理——一条流处理文本，另一条处理视觉。DeepMind 在「perceiver」架构上的工作也分离了编码与推理，进一步验证了该方向。

时间归档

常见问题

这次模型发布“LLM 'Split-Brain' Architecture: Parallel Data Streams Could Double Inference Speed”的核心内容是什么？

The dominant paradigm for large language models is a serial pipeline: input flows in, the model processes it linearly, and output emerges. This single-stream approach creates funda…

从“multistream LLM architecture explained simply”看，这个模型发布为什么重要？

The core innovation of the multistream LLM architecture is the separation of three traditionally fused computational pathways: 1. Prompt Stream (P-Stream): Handles token ingestion, embedding, and initial encoding. This s…

围绕“multistream LLM vs traditional transformer latency comparison”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

LLM「裂脑」架构：并行数据流或将推理速度翻倍

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

时间归档

延伸阅读

常见问题