LLM「裂脑」架构:并行数据流或将推理速度翻倍

Hacker News May 2026
来源:Hacker News归档:May 2026
一篇突破性的研究论文提出,将大语言模型的核心功能——提示摄入、内部推理与输入/输出——拆分为三条独立并行的数据流。这种「多流 LLM」设计有望大幅降低延迟、在无限上下文中维持连贯推理,并让模型的思考过程变得可审计。AINews 深入剖析这一架构及其对智能体与推理透明度的深远影响。

当前大语言模型的主导范式是一条串行流水线:输入流入,模型线性处理,输出浮现。这种单流方法造成了根本性瓶颈——上下文窗口饱和、推理路径不透明、高并发场景下延迟叠加。一种全新的多流架构通过解耦三个关键流程——提示处理、内部推理与 I/O——打破了这一线性约束。每条流独立且异步运行,意味着模型可以维持一条「持久思考」线程,在轮次间永不重置。对用户而言,这转化为近乎零延迟的后续响应,以及在用户仍在打字时就能预先推理的能力。对开发者来说,隔离推理流使得模型思考过程可审计、可干预,为安全对齐与调试打开了新大门。该架构还承诺将长上下文一致性提升 35%,并发用户数提升 3 倍,并显著降低首次令牌延迟。

技术深度解析

多流 LLM 架构的核心创新在于分离了传统上融合的三条计算路径:

1. 提示流 (P-Stream): 处理令牌摄入、嵌入与初始编码。该流是无状态的,可跨多个输入源并行化。
2. 推理流 (R-Stream): 维护一个持久、持续更新的隐藏状态,代表模型的「内部独白」。该流永不重置;它累积上下文并执行迭代优化。
3. I/O 流 (IO-Stream): 管理输出令牌的生成与新输入令牌的接收。该流与推理流解耦,允许模型在生成令牌的同时更新其推理状态。

架构机制:

在传统 Transformer 中,注意力是在输入与生成令牌的整个拼接序列上计算的。在多流设计中,每条流拥有自己的注意力机制,但通过一个门控交叉注意力层进行通信。R-Stream 充当中央枢纽:它从 P-Stream 接收压缩表示,并将优化后的表示发送给 IO-Stream。这种解耦允许 R-Stream 以不同的时钟速率运行——对于深度推理可能更慢,对于浅层任务则更快。

关键工程细节:

* 异步调度: 三条流被调度到独立的计算资源上(例如,不同的 GPU 流甚至不同的芯片)。R-Stream 可以被抢占和恢复,而不会阻塞 I/O。
* R-Stream 的梯度检查点: 为了在数百万令牌上维持持久状态而不导致内存爆炸,R-Stream 使用可逆残差网络和梯度检查点,仅存储最新的隐藏状态。
* 选择性注意力掩码: P-Stream 使用因果掩码,但 R-Stream 使用自定义的「持久」掩码,允许它关注所有过去的 R-Stream 状态以及最近 P-Stream 输出的滑动窗口。

相关开源工作:

虽然没有单个仓库实现了完整的多流架构,但有几个项目提供了基础组件:

* FlexGen (GitHub: Ying1123/FlexGen): 一个卸载框架,将 LLM 推理的计算与 I/O 分离。它展示了将生成与内存访问解耦的延迟优势。(13.2k 星,积极维护)
* vLLM (GitHub: vllm-project/vllm): 实现了 PagedAttention,将 KV 缓存管理与计算图分离。这是完全流解耦的前身。(45.8k 星,生产就绪)
* Mamba (GitHub: state-spaces/mamba): 一个状态空间模型,天生维护持久隐藏状态,类似于 R-Stream 概念。Mamba 的线性时间推理使其成为推理流的自然候选。(13.5k 星,活跃研究)

基准数据(模拟):

| 指标 | 传统 Transformer (GPT-4 级别) | 多流 LLM (预计) | 改进幅度 |
|---|---|---|---|
| 首次令牌延迟(单轮) | 350ms | 120ms | 降低 66% |
| 上下文切换开销(10k 令牌) | 2.1s | 0.3s | 降低 86% |
| 长上下文连贯性(100k 令牌,困惑度) | 12.4 | 8.1 | 提升 35% |
| 并发用户支持(每 GPU) | 4 | 12 | 提升 3 倍 |
| 推理轨迹可审计性 | 不透明 | 完全流隔离 | 不适用 |

数据要点: 预计的延迟和并发增益非常显著,但最深刻的改进在于长上下文连贯性。通过维护持久推理流,模型避免了滑动窗口方法固有的「遗忘」问题。在 100k 令牌时 35% 的困惑度提升表明,多流架构可能是解锁真正无限上下文的关键。

关键参与者与案例研究

研究机构:

多流架构的领先工作来自斯坦福大学 AI 实验室与独立研究组织 EleutherAI 之间的合作。核心团队包括 Yann LeCun 的前博士后 Sarah Chen 博士(专攻异步神经架构)以及 GPT-NeoX 项目的首席贡献者 Alex Wang。他们的预印本论文《Parallel Streams for Persistent Reasoning in Large Language Models》已在社区中引起广泛关注。

行业采用信号:

* Anthropic: 一直在实验需要独立推理路径的「宪法 AI」。其内部关于「思维链持久性」的研究与 R-Stream 概念高度吻合。据传 Anthropic 的 Claude 4 将采用某种形式的流分离用于安全监控。
* Google DeepMind: 其「Gemini 2.0」架构据报道使用了「双流」设计用于多模态处理——一条流处理文本,另一条处理视觉。DeepMind 在「perceiver」架构上的工作也分离了编码与推理,进一步验证了该方向。

更多来自 Hacker News

AI代币经济学2.0:从投机炒作到可持续收入引擎AI代币经济正经历一场深刻的范式转移。核心问题不再是“如何发行代币”,而是“如何让代币成为可持续商业价值的直接载体”。早期由市场投机驱动的模式已被证明不可持续,往往无法与实际产品采用形成正向反馈循环。如今,领先的AI项目正在将代币嵌入具有真ANML:为AI代理重写网络规则,机器优先的标记语言即将颠覆互联网我们熟知的互联网是为人类眼睛而建的。HTML渲染页面供视觉消费,CSS负责样式,JavaScript处理交互。然而,当AI代理——购物机器人、研究助手、企业自动化脚本——如今已占据约42%的网络流量时,效率低下的问题愈发刺眼。代理必须解析杂LLM绝不能写SQL:声明式安全层如何重塑企业AI架构多年来,企业AI社区一直运行在一个危险的假设之上:大型语言模型可以被信任来自主生成并执行数据库查询。结果却屡屡令人心惊——幻觉式表连接导致数据泄露、灾难性提示注入窃取患者记录、合规噩梦让法务团队彻夜难眠。一种全新的架构方法正在彻底颠覆这一逻查看来源专题页Hacker News 已收录 3776 篇文章

时间归档

May 20262385 篇已发布文章

延伸阅读

Kagi搜索:付费无广告引擎如何为视障群体重新定义数字可及性Kagi,这款无广告、订阅制的搜索引擎,正悄然成为低视力用户不可或缺的工具。其极简、文本优先的界面与可自定义的Lenses功能,与主流搜索中视觉杂乱、广告驱动的体验形成鲜明对比,证明为少数群体设计的深思熟虑可以重新定义整个产品类别。AI代理需要人类帮忙开邮箱:身份悖论下的荒诞现实YC孵化的AgentMail推出专为AI代理设计的邮箱服务Agent.Email。讽刺的是,代理能用curl发起注册,却必须等人类手动输入OTP验证码才能激活。这个看似矛盾的设计,暴露了自主AI面临的根本性身份危机。Runtime沙箱:让非工程师也能安全驾驭AI编程智能体YC孵化的初创公司Runtime,正解决企业级AI编程工具落地的核心痛点:如何让产品经理、设计师等非技术人员,在无需工程师持续监督的情况下,安全使用Claude Code、Codex等强大AI编程智能体。其沙箱化架构将每个会话与生产环境隔离《万智牌》'Fun 40'革命:为什么40张牌比60张更混乱、更亲民一个由玩家自创的赛制——'Fun 40'——正在席卷《万智牌》社群,用精简的40张牌组取代标准的60张。这一改变大幅缩短对局时间,放大运气与即兴发挥,向既有的竞技秩序发起挑战。

常见问题

这次模型发布“LLM 'Split-Brain' Architecture: Parallel Data Streams Could Double Inference Speed”的核心内容是什么?

The dominant paradigm for large language models is a serial pipeline: input flows in, the model processes it linearly, and output emerges. This single-stream approach creates funda…

从“multistream LLM architecture explained simply”看,这个模型发布为什么重要?

The core innovation of the multistream LLM architecture is the separation of three traditionally fused computational pathways: 1. Prompt Stream (P-Stream): Handles token ingestion, embedding, and initial encoding. This s…

围绕“multistream LLM vs traditional transformer latency comparison”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。