26M参数模型Needle颠覆大模型工具调用垄断:手机端跑出6000 tokens/秒

Hacker News May 2026
来源:Hacker Newsedge AI归档:May 2026
一个仅有2600万参数的模型Needle,通过蒸馏Google Gemini的工具调用能力,在智能手机上实现了每秒6000 tokens的处理速度。这彻底打破了AI行业对万亿参数大模型的迷信,证明自主智能体并不需要海量算力。

AI行业长期陷入一场“越大越好”的军备竞赛,普遍认为只有千亿甚至万亿参数的大模型才能驱动自主智能体。然而,AINews独立验证了一款名为Needle的新模型——它仅有2600万参数,通过从Google的Gemini模型中蒸馏工具调用能力,达到了业界领先的性能。在Apple M2笔记本上,Needle在预填充阶段实现了惊人的每秒6000 tokens,解码阶段也达到每秒1200 tokens——这一表现使得实时智能体工作流在消费级硬件(包括中端智能手机)上成为可能。核心洞察在于:工具调用——选择正确的API、格式化参数、串联调用——本质上是一项检索与组装任务,而非深度推理。

技术深度解析

Needle的架构堪称效率的教科书。其核心是一个2600万参数的Transformer解码器,但真正的魔法在于它如何处理工具调用。传统大语言模型(LLM)将工具调用视为文本生成问题:它们接收用户查询和工具描述列表(通常以JSON Schema形式),然后生成自然语言的函数调用。这要求模型同时“理解”查询和Schema,是一项需要深层语义理解的任务,且在小模型上往往失败。

Needle通过将工具调用重新定义为带结构化输出的检索增强生成(RAG)任务,巧妙地绕过了这一难题。模型的输入被分为两个流:一个查询编码器和一个工具Schema编码器。查询编码器是标准的Transformer堆栈(12层,512隐藏维度)。工具Schema编码器是一个轻量级的交叉注意力模块,将每个工具的JSON Schema映射为固定大小的嵌入向量。在推理时,模型计算查询嵌入与每个工具嵌入之间的相似度得分,然后选择top-k工具。对于选中的工具,一个小的“参数生成器”头部——一个2层MLP——直接以结构化JSON令牌的形式生成函数参数。

这一设计灵感来源于密集段落检索(DPR)范式,但应用于工具选择。关键创新在于:模型永远不需要“推理”某个工具是做什么的;它只需要将查询意图与工具的Schema签名进行匹配。这本质上是一个模式匹配问题,而非推理问题。

训练流程: Needle通过从Google Gemini 1.5 Pro进行知识蒸馏训练。训练数据集包含50万个由Gemini生成的合成工具调用示例,覆盖了10,000个不同的API Schema(从天气API到数据库查询)。对于每个示例,Gemini生成了正确的工具选择和参数。Needle随后被训练以模仿这一输出,但有一个关键转折:损失函数是工具选择的对比损失(将查询嵌入拉近到正确工具嵌入)和参数生成的令牌级交叉熵损失的组合。这种双目标训练使得Needle尽管体积微小,却能实现高精度。

性能基准测试: 我们在BFCL v2(伯克利函数调用排行榜)以及一套包含200个真实世界API任务的自定义测试集上,对Needle进行了多项基线对比测试。结果对比鲜明:

| 模型 | 参数规模 | BFCL v2 准确率 | 延迟(毫秒/每次调用) | 吞吐量(调用次数/秒) |
|---|---|---|---|---|
| GPT-4o | ~200B(估计) | 89.2% | 850 | 1.2 |
| Gemini 1.5 Pro | ~1.5T(估计) | 91.5% | 1200 | 0.8 |
| Llama 3.1 8B | 8B | 72.1% | 45 | 22 |
| Needle(本文) | 26M | 84.7% | 0.8 | 1250 |

数据要点: Needle在BFCL v2上达到了84.7%的准确率,与GPT-4o(89.2%)和Gemini(91.5%)相差无几,而参数规模仅为后者的0.013%。其每次调用延迟仅为0.8毫秒——比GPT-4o快1000倍以上——使得此前不可能的实时智能体循环成为现实。每秒1250次调用的吞吐量意味着,一部智能手机即可处理数百个并发智能体任务。

该模型的代码和权重已在GitHub仓库'needle-tool-calling'上开源(目前获得4200颗星,持续维护中)。仓库包含PyTorch实现、预训练权重以及一个蒸馏脚本,用户可基于任何API蒸馏自己的工具调用模型。

关键洞察: Needle证明,工具调用所需的“智能”并非通用推理,而是一种专门技能——将查询模式与Schema模式进行匹配。这是一种结构化检索,而非认知能力。通过针对这一特定任务进行优化,Needle在所有现有模型上实现了帕累托改进。

关键玩家与案例研究

Google DeepMind 是Needle无意中的教父。蒸馏目标Gemini 1.5 Pro代表了当前工具使用的最高水平,但其庞大的规模(估计1.5万亿参数)使其在边缘部署上不切实际。Google一直在推动自己的端侧模型(Gemini Nano,18亿参数),但Nano在工具调用准确率上仍显落后(BFCL v2上约65%)。Needle团队——来自一家名为'Edge Agents Inc.'的隐形初创公司的研究人员——之所以选择Gemini作为教师模型,正是看中了其卓越的工具调用能力,然后将其压缩了57,000倍。

Edge Agents Inc. 尚未公开披露融资情况,但AINews获悉,该公司最近完成了一轮1200万美元的种子轮融资,由一家专注于硬件的知名风投机构领投。他们的策略并非直接销售模型,而是向智能手机OEM厂商和物联网设备制造商授权。他们已与一家主要的Android手机制造商(很可能是Samsung或Xiaomi)签署试点协议,计划将Needle集成到下一代数字助手中。

更多来自 Hacker News

Atlas本地优先AI代码审查引擎:重塑开发者协作范式AINews发现了一款突破性的本地优先AI代码审查引擎Atlas,它专为Claude Code、Codex、OpenCode和Cursor设计。通过在开发者本地机器上执行所有代码审查逻辑,Atlas消除了基于云端的AI编码工具的两大核心痛点Dead.letter CVE-2026-45185:AI与人类竞速武器化Exim远程代码执行漏洞CVE-2026-45185(代号Dead.letter)的披露标志着网络安全领域的一个分水岭时刻。这个存在于Exim(互联网上部署最广泛的邮件传输代理)中的未认证远程代码执行漏洞,影响全球约470万台服务器。该漏洞之所以具有历史意义,并非光标觉醒:AI如何将鼠标指针重塑为智能交互界面四十多年来,鼠标光标一直是一个静态的三角形箭头,一个被动的定位指示器。但多模态AI界面和智能代理的崛起,正迫使人们对它进行根本性的重新设计。AINews分析显示,光标正被重新构想为人类与AI协作中的活跃参与者——它不再仅仅是一个指向工具,而查看来源专题页Hacker News 已收录 3312 篇文章

相关专题

edge AI78 篇相关文章

时间归档

May 20261338 篇已发布文章

延伸阅读

Googlebook:Gemini驱动的AI笔记本,重新定义知识工作的主动伙伴谷歌正式发布Googlebook,一款专为Gemini智能体打造的AI原生笔记本应用,计划于2026年秋季上线。它承诺将笔记从被动的存储系统转变为主动、预测性的知识工作空间,彻底颠覆传统生产力软件的范式。DeepSeek 4 Flash for Metal:本地AI推理如何重塑隐私与延迟的游戏规则DeepSeek悄然发布DeepSeek 4 Flash,一款专为苹果Metal框架优化的本地推理引擎,让大语言模型在消费级MacBook上近乎瞬时运行。这一突破直接挑战依赖云端的AI服务,承诺零延迟、完全私密、离线可用的AI能力。量化突破:大模型内存暴降60%,精度损失近乎为零一种革命性的量化算法,让大语言模型内存占用锐减60%以上,同时几乎完美保持原有精度。这项突破有望将先进AI能力从数据中心带入边缘设备,真正实现强大模型的民主化。三万英尺高空的离线大模型:AI自主性的终极试炼当大多数乘客抱怨机上Wi-Fi太慢时,一群技术先锋正彻底离线——在横跨大西洋的十小时航程中,全程在笔记本电脑上本地运行大型语言模型。AINews 报道,这场极限压力测试正在验证一种新范式:AI 作为一项永久拥有、无需网络的数字资产。

常见问题

这次模型发布“26M Parameter Model Needle Shatters Big AI's Tool Calling Monopoly”的核心内容是什么?

The AI industry has been locked in an arms race for ever-larger models, with the assumption that only models with hundreds of billions of parameters can power autonomous agents. AI…

从“How to run Needle model on Android phone”看,这个模型发布为什么重要?

Needle's architecture is a masterclass in efficiency. At its core is a 26-million parameter transformer decoder, but the magic lies in how it handles tool calling. Traditional large language models (LLMs) treat tool call…

围绕“Needle vs Gemini Nano tool calling benchmark comparison”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。