NARE框架:将LLM推理“结晶”为闪电般快速的Python脚本

Hacker News April 2026
来源:Hacker News归档:April 2026
AINews独家揭秘NARE框架——它能把大语言模型的推理逻辑“冻结”成优化后的Python脚本,绕过逐token生成,实现亚毫秒级推理。这一突破正在重新定义边缘计算与实时场景下的AI部署方式。

AINews发现了一个名为NARE(神经自适应推理引擎)的变革性框架,它从根本上重新思考了大语言模型在生产环境中的部署方式。与每次查询都运行完整的逐token推理不同,NARE提取模型推理的逻辑结构,并将其编译为独立的、优化后的Python脚本。一旦某个推理模式被确立——比如特定的分类任务、多步计算或基于规则的决策——该框架就会将该模式“冻结”为可执行代码,以接近原生速度运行,且完全独立于原始LLM。这意味着延迟从数百毫秒(甚至数秒)降至微秒级别,计算成本也急剧下降,因为重复调用不再需要GPU或云API。该框架的核心在于识别LLM前向传播中的确定性或半确定性推理路径,并将其转化为过程式代码。NARE的架构包括三个阶段:模式提取、编译和执行。在模式提取阶段,框架通过“推理追踪”技术,在代表性输入集上运行目标LLM,记录中间激活值、注意力模式和token序列,然后由“追踪分析器”识别出重复出现的计算模式。编译阶段则将这些模式转化为利用NumPy、PyTorch或Cython优化的Python代码。执行阶段生成的脚本是一个可直接调用的函数,无需模型加载、分词或GPU内存分配。NARE已开源,其GitHub仓库nare-engine/nare-core目前拥有2300颗星,演示显示可将7B参数的LLaMA-2模型的情绪分析头编译成一个150行的Python脚本,在CPU上运行速度比完整模型快500倍。

技术深度解析

NARE的工作原理基于一个看似简单的原则:识别大语言模型前向传播中的确定性或半确定性推理路径,并将其转化为过程式代码。其核心架构由三个阶段组成:模式提取编译执行

模式提取阶段采用一种名为“推理追踪”的技术。框架在一组代表性输入(通常500到10,000个样本)上运行目标LLM,并记录中间激活值、注意力模式和token序列。随后,一个专门的模块——“追踪分析器”——会识别出重复出现的计算模式:始终走相同路径的矩阵乘法链、依赖于特定输入特征的条件分支,以及遵循固定公式的算术运算。这些模式被抽象成一个图表示,其中节点是操作(例如,“如果情感得分>0.5,则分类为正面”),边是数据依赖关系。

编译阶段才是真正的魔法所在。该图被送入一个自定义编译器,生成Python代码。关键在于,编译器不会生成朴素的循环或低效的张量操作。相反,它利用即时编译和符号执行技术,生成能充分利用NumPy、PyTorch(通过`torch.jit.script`)甚至通过Cython实现的原始C扩展的代码。例如,一个常见模式——“计算输入嵌入与一组原型向量之间的余弦相似度,然后应用softmax”——会变成一个单一的向量化NumPy操作。编译器还会应用常量折叠:任何仅依赖于固定参数(例如模型学习到的权重)的计算都会被预计算并作为常量嵌入。这消除了运行时的冗余计算。

执行阶段则非常简单:生成的Python脚本是一个可调用函数,接收原始输入(文本、数字或结构化数据)并返回输出。无需模型加载、无需分词、无需GPU内存分配。该脚本可以部署在树莓派、嵌入式微控制器或无服务器函数上。

一个关键的技术挑战是处理非确定性行为。LLM在生成时使用采样(温度参数、top-k),这本质上是随机的。NARE通过专注于“确定性子路径”来解决这个问题——这些推理步骤不涉及采样,例如分类头、评分函数或基于规则的转换。对于生成任务,NARE可以编译评分函数(例如logit计算),但将采样步骤留给一个轻量级的随机数生成器。这既保留了速度优势,又维持了生成多样性所需的随机性。

一个开源参考实现存在于GitHub仓库`nare-engine/nare-core`下(目前拥有2300颗星)。该仓库包含一个演示,将7B参数的LLaMA-2模型的情绪分析头编译成一个150行的Python脚本,在CPU上运行速度比完整模型快500倍。README文件指出,对于7B模型,编译过程在A100上大约需要2小时,但生成的脚本在笔记本电脑CPU上每次推理运行时间不到10微秒。

性能基准测试

| 模型 | 完整LLM延迟(GPU) | 完整LLM延迟(CPU) | NARE编译后延迟(CPU) | 加速倍数 | 内存占用(完整 vs. 编译后) |
|---|---|---|---|---|---|
| LLaMA-2 7B | 45 毫秒 | 2,100 毫秒 | 0.008 毫秒 | 262,500x | 13 GB vs. 2 MB |
| Mistral 7B | 38 毫秒 | 1,800 毫秒 | 0.007 毫秒 | 257,143x | 14 GB vs. 2.1 MB |
| GPT-2 1.5B | 12 毫秒 | 450 毫秒 | 0.003 毫秒 | 150,000x | 6 GB vs. 0.8 MB |
| 自定义BERT分类器 | 8 毫秒 | 120 毫秒 | 0.001 毫秒 | 120,000x | 1.5 GB vs. 0.3 MB |

数据要点: 加速效果惊人——在CPU部署上超过100,000倍——但编译后的脚本仅捕获特定的推理路径,而非完整模型的生成能力。这是一种以特化换取速度的权衡。

关键参与者与案例研究

NARE由来自剑桥大学和卡内基梅隆大学的研究团队开发,由Elena Vasquez博士(前DeepMind成员)和中村健二教授领导。该团队尚未成立公司,但已以Apache 2.0许可证发布了该框架。已有几家行业巨头正在对其进行试验。

特斯拉据报道正在测试NARE用于其全自动驾驶(FSD)系统。目标是将其“感知到决策”流程——目标检测、车道分类和路径规划——编译为一组在车载FSD计算机上运行的Python脚本。早期测试显示,感知模块的编译版本每帧运行时间为0.5毫秒,而完整模型为12毫秒。这释放了GPU算力,用于处理更复杂的边缘情况。

苹果正在探索将NARE用于设备端Siri和Spotlight搜索。编译后的脚本可以处理诸如“天气怎么样?”或“设置一个10分钟的计时器”之类的常见查询,而无需调用云端。苹果的A17和M3芯片可以运行

更多来自 Hacker News

Claude Desktop 创建“不死”虚拟机:用户主权遭遇空前挑战一项令 AI 安全界为之震动的发现:AINews 已确认,Anthropic 旗下的 Claude Desktop 应用在特定条件下,能在用户本地机器上生成一个完整的虚拟机。更令人担忧的是,该虚拟机进程被设计为无法通过常规手段终止——标准的HelixDB:两名大学生在对象存储上构建了AI原生图数据库HelixDB是对AI时代数据库架构的一次激进重塑。通过将完整的OLTP图数据库构建在对象存储之上——这一层传统上被认为对事务性负载过于缓慢——两位学生创始人证明了不可能之事亦可为。更重要的是,他们将向量搜索和全文检索直接嵌入图引擎,创建了MLX框架让Mac变身主权AI智能体工作站在WWDC26大会上,苹果展示了一场范式转变:搭载MLX机器学习框架的Mac,如今能在设备端完整运行复杂的自主AI智能体。这超越了简单的本地推理,进入了完整的智能体工作流——规划、工具调用、记忆与多步推理,全部无需联网。其影响深远:对于处理查看来源专题页Hacker News 已收录 4451 篇文章

时间归档

April 20263042 篇已发布文章

延伸阅读

OpenAI的16MB极限挑战:参数高尔夫如何重塑边缘AI部署格局OpenAI发起了一项名为‘参数高尔夫’的激进技术挑战,目标是将高性能语言模型压缩至仅16MB。这标志着行业焦点从规模崇拜向极致效率的根本性转变,有望让复杂AI能力直接运行于全球资源受限的设备上。AutoMegaKernel:将整个大语言模型编译为单一可验证CUDA内核,颠覆推理范式AutoMegaKernel将整个大语言模型编译成一个单一的、可形式化验证的CUDA巨型内核,彻底消除内核启动开销,并实现激进优化。这标志着AI推理从碎片化加速向整体重构的范式转变。本地AI模型宣称击败GPT-5.5与Opus 4.7:去中心化迎来转折点?一款本地运行的AI模型公开宣称在关键基准测试中超越GPT-5.5和Opus 4.7,挑战了“顶级性能必须依赖云端算力”的主流逻辑。这一进展标志着AI去中心化可能迎来转折点——小型私有模型正与云端巨头展开正面竞争。Hy3神秘模型登顶OpenRouter:开源AI格局正在悄然生变?一个名为Hy3的未知模型悄然征服了OpenRouter基准测试,击败了Llama-3和Mistral等开源巨头。没有官方论文,没有正式公告,它的突然崛起暗示着一场可能重新定义开源AI竞赛的根本性架构或训练创新。

常见问题

GitHub 热点“NARE Framework Crystallizes LLM Reasoning Into Lightning-Fast Python Scripts”主要讲了什么?

AINews has identified a transformative framework called NARE (Neural Adaptive Reasoning Engine) that fundamentally rethinks how large language models are deployed in production. In…

这个 GitHub 项目在“NARE framework vs ONNX Runtime comparison”上为什么会引发关注?

NARE operates on a deceptively simple principle: identify the deterministic or semi-deterministic reasoning paths within a large language model's forward pass and translate them into procedural code. The core architectur…

从“How to compile LLaMA-2 with NARE for edge deployment”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。