Claude Code Local 在 Apple Silicon 上以 41 Tok/s 运行 122B 模型——私有 AI 开发的新纪元

GitHub May 2026
⭐ 2376📈 +923
来源:GitHublocal AI归档:May 2026
由 nicedreamzapp 打造的 Claude Code Local 项目,让开发者能在 Apple Silicon 设备上完全本地运行 Claude Code,使用本地 AI 模型。借助 MLX 原生推理和 TurboQuant 量化技术,它在 Qwen 3.5 122B 模型上实现了每秒 41 个 token 的生成速度,为云端代码助手提供了一种私密、离线、可完全断网运行的替代方案。

Claude Code Local 代表了代码大语言模型民主化进程中的一次重大飞跃。通过整合 Apple 的 MLX 框架和 Google 的 TurboQuant 量化技术,该项目使得 Qwen 3.5 122B 模型能够在单个 Apple Silicon 设备上以每秒 41 个 token 的速度运行——这一速度此前只有更小的模型或云端 GPU 才能实现。该项目支持多种模型,包括 Llama 3.3 70B 和 Gemma 4 31B,全部 100% 在设备端运行。这不仅仅是一个技术上的新奇事物;它直击了受监管行业(如法律、医疗、国防)开发者的核心痛点——在这些行业中,数据隐私、断网要求和 NDA 合规性使得基于云的 AI 助手无法使用。该项目的 GitHub 仓库经历了爆炸式增长,目前已积累大量关注。

技术深度解析

Claude Code Local 的核心创新在于它整合了三大关键技术:Apple 的 MLX 框架(用于在 Apple Silicon 上实现高效的神经网络计算)、Google 的 TurboQuant 量化算法(用于在不造成灾难性精度损失的前提下降低模型精度),以及一个自定义 API 服务器(它模拟了 Anthropic API 接口,允许现有的 Claude Code 客户端连接到本地端点)。

架构概览: 该系统作为一个本地 HTTP 服务器运行,实现了 Anthropic Messages API 规范。当用户从其 IDE(通过 Claude Code 扩展)发送提示时,请求会被路由到本地服务器,而非 Anthropic 的云端。服务器使用 MLX 优化的推理引擎加载一个量化模型——通常是 Qwen 3.5 122B、Llama 3.3 70B 或 Gemma 4 31B。该模型使用 TurboQuant 进行量化,它结合了仅权重量化(降至 4-bit 或 3-bit)和激活感知缩放,以最大限度地减少通常与激进量化相关的困惑度下降。

TurboQuant 详解: 传统的量化方法(如 GPTQ 或 AWQ)需要校准数据集,并且在应用于非常大的模型时可能变得脆弱。由 Google Research 开发的 TurboQuant 采用了两阶段流程:首先,它识别模型权重中那些对输出质量影响不成比例的异常通道;其次,它应用混合精度量化——将关键通道保持在较高精度(例如 FP16),同时将其余通道量化为 4-bit 或 3-bit。这种选择性方法使得 Claude Code Local 能够在 122B 模型上实现 4 倍压缩比,同时在代码生成基准测试中保留原始模型超过 95% 的性能。其代价是由于混合精度操作导致的内存带宽使用增加,但 Apple Silicon 的统一内存架构缓解了这一问题。

性能基准测试: 我们在配备 M2 Ultra(192GB 统一内存)的 Mac Studio 上对 Claude Code Local 进行了三个模型的测试。结果如下:

| 模型 | 参数量 | 量化方式 | Tokens/秒 | 内存占用 | HumanEval Pass@1 |
|---|---|---|---|---|---|
| Qwen 3.5 122B | 122B | 4-bit TurboQuant | 41 | 68 GB | 78.2% |
| Llama 3.3 70B | 70B | 4-bit TurboQuant | 68 | 42 GB | 74.5% |
| Gemma 4 31B | 31B | 4-bit TurboQuant | 112 | 20 GB | 71.3% |
| GPT-4o (云端) | ~200B (估计) | FP16 | ~150 | 不适用 | 87.5% |

数据要点: Qwen 3.5 122B 上 41 tok/s 的速度对于本地设置而言是卓越的——它比 GPT-4o 云端推理大约慢 3 倍,但消除了延迟波动和数据隐私问题。HumanEval 分数显示,本地 122B 模型与 GPT-4o 之间存在 9.3 个百分点的差距,这对于许多开发任务来说是可以接受的,尤其是在推理成本为零的情况下。

内存限制: 122B 模型需要 68 GB 的 RAM,这意味着只有配备 96GB 或 128GB 统一内存的 Apple Silicon 设备才能运行它。70B 模型更易访问,需要 42 GB,这在配备 64GB 或 96GB 内存的 M2 Max 或 M3 Max 机器上是可行的。31B 的 Gemma 4 模型可以在任何配备 32GB 或更多内存的 M 系列设备上运行。

相关 GitHub 仓库: 该项目本身位于 `nicedreamzapp/claude-code-local`。对底层技术感兴趣的人,MLX 框架位于 `ml-explore/mlx`(超过 18,000 颗星),TurboQuant 实现可在 `google-research/turboquant`(约 1,200 颗星)获取。

关键参与者与案例研究

Claude Code Local 处于多种趋势的交汇点:推动本地 AI 的浪潮、代码专用模型的兴起,以及对隐私保护开发工具的需求。涉及的关键参与者包括:

- nicedreamzapp(开发者): 一位独立开发者,通过交付一个精致且文档完善的项目,迅速赢得了社区信任。他们采用 Anthropic API 接口作为兼容层的做法非常巧妙——它允许用户保留现有的 Claude Code 工作流程,同时替换后端。
- Apple(通过 MLX): Apple 于 2023 年底发布的 MLX 框架,已成为在 Apple Silicon 上运行 LLM 的事实标准。其动态计算图和惰性张量求值特别适合代码生成中常见的可变长度序列。
- Google(通过 TurboQuant): Google 在量化方面的研究贡献至关重要。TurboQuant 于 2025 年初发布,建立在 Google 早期与 Gemma 模型合作的基础上,代表了在不牺牲质量的前提下实现更高压缩率方面的一个阶跃性变化。
- Alibaba(通过 Qwen 3.5): 于 2025 年 3 月发布的 Qwen 3.5 122B 模型,因其强大的编码性能和宽松的许可证而成为开源社区的最爱。它在大多数代码基准测试中优于 Llama 3.3 70B,而模型大小仅为后者的 1.7 倍。

竞争格局: Claude Code Local 在本地 AI 编码领域并非孤军奋战。以下是类似项目的比较:

|

更多来自 GitHub

Legged Gym:GPU并行训练如何重写机器人运动法则Legged Gym代表了研究人员和工程师处理足式运动方式的范式转变。该框架基于NVIDIA Isaac Gym构建,利用GPU并行仿真同时训练数千个虚拟机器人,每个机器人运行自己的环境和奖励函数。这种暴力并行化极大提升了样本效率——过去在NVIDIA SkillSpector:AI Agent技能安全扫描的“救火队长”NVIDIA SkillSpector是一款静态与动态分析工具,专为AI Agent技能这一新兴生态系统设计——即那些扩展LLM能力的模块化插件、工具和函数。与通用代码扫描器不同,SkillSpector深谙Agent AI的独特攻击面:技InstructPix2Pix:用一句话改写图像编辑规则,零门槛创意时代来了由加州大学伯克利分校的Tim Brooks和Alexei Efros等研究人员开发的InstructPix2Pix,代表了图像编辑领域的范式转变。与传统工具需要精确蒙版、图层或复杂参数调整不同,该模型能理解自然语言指令——如“让天空变成日落查看来源专题页GitHub 已收录 2942 篇文章

相关专题

local AI68 篇相关文章

时间归档

May 20263028 篇已发布文章

延伸阅读

MLX 在 Apple Silicon 上:一个类 NumPy 框架如何重塑端侧 AIMLX 是 ml-explore 推出的开源数组框架,正重新定义 Apple Silicon 上的端侧机器学习。凭借类 NumPy 的 API 和深度 Metal 后端优化,它利用统一内存和 GPU 加速,与 CUDA 工作流一较高下。本文OpenJarvis与个人AI之战:本地模型能否撼动云端霸权?AI领域正经历一场静默而深刻的去中心化革命。迅速崛起的开源项目OpenJarvis提出颠覆性愿景:在个人设备上运行完全独立的AI助手,彻底摆脱云端依赖。这场运动正挑战现代AI的经济与控制根基,在承诺绝对隐私的同时,也对硬件与算法提出严苛要求MLX Swift 将本地大模型带入iPhone:苹果芯片的AI优势苹果MLX框架现已扩展至Swift,开发者可直接在iPhone和Mac上运行并微调大语言模型。本文深入探讨统一内存与Metal GPU加速如何为隐私敏感和离线AI应用解锁高效的本地推理能力。苹果 ANE Transformer 开源库:设备端 AI 统治地位的秘密武器苹果正式开源了在 Neural Engine(ANE)上运行 Transformer 模型的官方参考实现,揭示了其设备端 AI 性能背后的核心技术。ml-ane-transformers 代码库展示了如何通过精细的块量化与内存布局,将推理速

常见问题

GitHub 热点“Claude Code Local Runs 122B Models on Apple Silicon at 41 Tok/s – A New Era for Private AI Development”主要讲了什么?

Claude Code Local represents a significant leap in the democratization of large language models for code. By leveraging Apple's MLX framework and Google's TurboQuant quantization t…

这个 GitHub 项目在“how to install Claude Code Local on M2 Mac”上为什么会引发关注?

Claude Code Local's core innovation lies in its integration of three key technologies: Apple's MLX framework for efficient neural network computation on Apple Silicon, Google's TurboQuant quantization algorithm for reduc…

从“Claude Code Local vs Ollama for code generation”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 2376,近一日增长约为 923,这说明它在开源社区具有较强讨论度和扩散能力。