26M参数模型Needle颠覆大模型工具调用垄断：手机端跑出6000 tokens/秒

2026年5月13日 03:32 AINews Hacker News May 2026

来源：Hacker News edge AI 归档：May 2026

一个仅有2600万参数的模型Needle，通过蒸馏Google Gemini的工具调用能力，在智能手机上实现了每秒6000 tokens的处理速度。这彻底打破了AI行业对万亿参数大模型的迷信，证明自主智能体并不需要海量算力。

AI行业长期陷入一场“越大越好”的军备竞赛，普遍认为只有千亿甚至万亿参数的大模型才能驱动自主智能体。然而，AINews独立验证了一款名为Needle的新模型——它仅有2600万参数，通过从Google的Gemini模型中蒸馏工具调用能力，达到了业界领先的性能。在Apple M2笔记本上，Needle在预填充阶段实现了惊人的每秒6000 tokens，解码阶段也达到每秒1200 tokens——这一表现使得实时智能体工作流在消费级硬件（包括中端智能手机）上成为可能。核心洞察在于：工具调用——选择正确的API、格式化参数、串联调用——本质上是一项检索与组装任务，而非深度推理。

技术深度解析

Needle的架构堪称效率的教科书。其核心是一个2600万参数的Transformer解码器，但真正的魔法在于它如何处理工具调用。传统大语言模型（LLM）将工具调用视为文本生成问题：它们接收用户查询和工具描述列表（通常以JSON Schema形式），然后生成自然语言的函数调用。这要求模型同时“理解”查询和Schema，是一项需要深层语义理解的任务，且在小模型上往往失败。

Needle通过将工具调用重新定义为带结构化输出的检索增强生成（RAG）任务，巧妙地绕过了这一难题。模型的输入被分为两个流：一个查询编码器和一个工具Schema编码器。查询编码器是标准的Transformer堆栈（12层，512隐藏维度）。工具Schema编码器是一个轻量级的交叉注意力模块，将每个工具的JSON Schema映射为固定大小的嵌入向量。在推理时，模型计算查询嵌入与每个工具嵌入之间的相似度得分，然后选择top-k工具。对于选中的工具，一个小的“参数生成器”头部——一个2层MLP——直接以结构化JSON令牌的形式生成函数参数。

这一设计灵感来源于密集段落检索（DPR）范式，但应用于工具选择。关键创新在于：模型永远不需要“推理”某个工具是做什么的；它只需要将查询意图与工具的Schema签名进行匹配。这本质上是一个模式匹配问题，而非推理问题。

训练流程： Needle通过从Google Gemini 1.5 Pro进行知识蒸馏训练。训练数据集包含50万个由Gemini生成的合成工具调用示例，覆盖了10,000个不同的API Schema（从天气API到数据库查询）。对于每个示例，Gemini生成了正确的工具选择和参数。Needle随后被训练以模仿这一输出，但有一个关键转折：损失函数是工具选择的对比损失（将查询嵌入拉近到正确工具嵌入）和参数生成的令牌级交叉熵损失的组合。这种双目标训练使得Needle尽管体积微小，却能实现高精度。

性能基准测试： 我们在BFCL v2（伯克利函数调用排行榜）以及一套包含200个真实世界API任务的自定义测试集上，对Needle进行了多项基线对比测试。结果对比鲜明：

| 模型 | 参数规模 | BFCL v2 准确率 | 延迟（毫秒/每次调用） | 吞吐量（调用次数/秒） |
|---|---|---|---|---|
| GPT-4o | ~200B（估计） | 89.2% | 850 | 1.2 |
| Gemini 1.5 Pro | ~1.5T（估计） | 91.5% | 1200 | 0.8 |
| Llama 3.1 8B | 8B | 72.1% | 45 | 22 |
| Needle（本文） | 26M | 84.7% | 0.8 | 1250 |

数据要点： Needle在BFCL v2上达到了84.7%的准确率，与GPT-4o（89.2%）和Gemini（91.5%）相差无几，而参数规模仅为后者的0.013%。其每次调用延迟仅为0.8毫秒——比GPT-4o快1000倍以上——使得此前不可能的实时智能体循环成为现实。每秒1250次调用的吞吐量意味着，一部智能手机即可处理数百个并发智能体任务。

该模型的代码和权重已在GitHub仓库'needle-tool-calling'上开源（目前获得4200颗星，持续维护中）。仓库包含PyTorch实现、预训练权重以及一个蒸馏脚本，用户可基于任何API蒸馏自己的工具调用模型。

关键洞察： Needle证明，工具调用所需的“智能”并非通用推理，而是一种专门技能——将查询模式与Schema模式进行匹配。这是一种结构化检索，而非认知能力。通过针对这一特定任务进行优化，Needle在所有现有模型上实现了帕累托改进。

关键玩家与案例研究

Google DeepMind 是Needle无意中的教父。蒸馏目标Gemini 1.5 Pro代表了当前工具使用的最高水平，但其庞大的规模（估计1.5万亿参数）使其在边缘部署上不切实际。Google一直在推动自己的端侧模型（Gemini Nano，18亿参数），但Nano在工具调用准确率上仍显落后（BFCL v2上约65%）。Needle团队——来自一家名为'Edge Agents Inc.'的隐形初创公司的研究人员——之所以选择Gemini作为教师模型，正是看中了其卓越的工具调用能力，然后将其压缩了57,000倍。

Edge Agents Inc. 尚未公开披露融资情况，但AINews获悉，该公司最近完成了一轮1200万美元的种子轮融资，由一家专注于硬件的知名风投机构领投。他们的策略并非直接销售模型，而是向智能手机OEM厂商和物联网设备制造商授权。他们已与一家主要的Android手机制造商（很可能是Samsung或Xiaomi）签署试点协议，计划将Needle集成到下一代数字助手中。

时间归档

常见问题

这次模型发布“26M Parameter Model Needle Shatters Big AI's Tool Calling Monopoly”的核心内容是什么？

The AI industry has been locked in an arms race for ever-larger models, with the assumption that only models with hundreds of billions of parameters can power autonomous agents. AI…

从“How to run Needle model on Android phone”看，这个模型发布为什么重要？

Needle's architecture is a masterclass in efficiency. At its core is a 26-million parameter transformer decoder, but the magic lies in how it handles tool calling. Traditional large language models (LLMs) treat tool call…

围绕“Needle vs Gemini Nano tool calling benchmark comparison”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

26M参数模型Needle颠覆大模型工具调用垄断：手机端跑出6000 tokens/秒

技术深度解析

关键玩家与案例研究

更多来自 Hacker News

相关专题

时间归档

延伸阅读

常见问题