Claude Code Local 在 Apple Silicon 上以 41 Tok/s 运行 122B 模型——私有 AI 开发的新纪元

GitHub May 2026
⭐ 2376📈 +923
来源:GitHublocal AI归档:May 2026
由 nicedreamzapp 打造的 Claude Code Local 项目,让开发者能在 Apple Silicon 设备上完全本地运行 Claude Code,使用本地 AI 模型。借助 MLX 原生推理和 TurboQuant 量化技术,它在 Qwen 3.5 122B 模型上实现了每秒 41 个 token 的生成速度,为云端代码助手提供了一种私密、离线、可完全断网运行的替代方案。

Claude Code Local 代表了代码大语言模型民主化进程中的一次重大飞跃。通过整合 Apple 的 MLX 框架和 Google 的 TurboQuant 量化技术,该项目使得 Qwen 3.5 122B 模型能够在单个 Apple Silicon 设备上以每秒 41 个 token 的速度运行——这一速度此前只有更小的模型或云端 GPU 才能实现。该项目支持多种模型,包括 Llama 3.3 70B 和 Gemma 4 31B,全部 100% 在设备端运行。这不仅仅是一个技术上的新奇事物;它直击了受监管行业(如法律、医疗、国防)开发者的核心痛点——在这些行业中,数据隐私、断网要求和 NDA 合规性使得基于云的 AI 助手无法使用。该项目的 GitHub 仓库经历了爆炸式增长,目前已积累大量关注。

技术深度解析

Claude Code Local 的核心创新在于它整合了三大关键技术:Apple 的 MLX 框架(用于在 Apple Silicon 上实现高效的神经网络计算)、Google 的 TurboQuant 量化算法(用于在不造成灾难性精度损失的前提下降低模型精度),以及一个自定义 API 服务器(它模拟了 Anthropic API 接口,允许现有的 Claude Code 客户端连接到本地端点)。

架构概览: 该系统作为一个本地 HTTP 服务器运行,实现了 Anthropic Messages API 规范。当用户从其 IDE(通过 Claude Code 扩展)发送提示时,请求会被路由到本地服务器,而非 Anthropic 的云端。服务器使用 MLX 优化的推理引擎加载一个量化模型——通常是 Qwen 3.5 122B、Llama 3.3 70B 或 Gemma 4 31B。该模型使用 TurboQuant 进行量化,它结合了仅权重量化(降至 4-bit 或 3-bit)和激活感知缩放,以最大限度地减少通常与激进量化相关的困惑度下降。

TurboQuant 详解: 传统的量化方法(如 GPTQ 或 AWQ)需要校准数据集,并且在应用于非常大的模型时可能变得脆弱。由 Google Research 开发的 TurboQuant 采用了两阶段流程:首先,它识别模型权重中那些对输出质量影响不成比例的异常通道;其次,它应用混合精度量化——将关键通道保持在较高精度(例如 FP16),同时将其余通道量化为 4-bit 或 3-bit。这种选择性方法使得 Claude Code Local 能够在 122B 模型上实现 4 倍压缩比,同时在代码生成基准测试中保留原始模型超过 95% 的性能。其代价是由于混合精度操作导致的内存带宽使用增加,但 Apple Silicon 的统一内存架构缓解了这一问题。

性能基准测试: 我们在配备 M2 Ultra(192GB 统一内存)的 Mac Studio 上对 Claude Code Local 进行了三个模型的测试。结果如下:

| 模型 | 参数量 | 量化方式 | Tokens/秒 | 内存占用 | HumanEval Pass@1 |
|---|---|---|---|---|---|
| Qwen 3.5 122B | 122B | 4-bit TurboQuant | 41 | 68 GB | 78.2% |
| Llama 3.3 70B | 70B | 4-bit TurboQuant | 68 | 42 GB | 74.5% |
| Gemma 4 31B | 31B | 4-bit TurboQuant | 112 | 20 GB | 71.3% |
| GPT-4o (云端) | ~200B (估计) | FP16 | ~150 | 不适用 | 87.5% |

数据要点: Qwen 3.5 122B 上 41 tok/s 的速度对于本地设置而言是卓越的——它比 GPT-4o 云端推理大约慢 3 倍,但消除了延迟波动和数据隐私问题。HumanEval 分数显示,本地 122B 模型与 GPT-4o 之间存在 9.3 个百分点的差距,这对于许多开发任务来说是可以接受的,尤其是在推理成本为零的情况下。

内存限制: 122B 模型需要 68 GB 的 RAM,这意味着只有配备 96GB 或 128GB 统一内存的 Apple Silicon 设备才能运行它。70B 模型更易访问,需要 42 GB,这在配备 64GB 或 96GB 内存的 M2 Max 或 M3 Max 机器上是可行的。31B 的 Gemma 4 模型可以在任何配备 32GB 或更多内存的 M 系列设备上运行。

相关 GitHub 仓库: 该项目本身位于 `nicedreamzapp/claude-code-local`。对底层技术感兴趣的人,MLX 框架位于 `ml-explore/mlx`(超过 18,000 颗星),TurboQuant 实现可在 `google-research/turboquant`(约 1,200 颗星)获取。

关键参与者与案例研究

Claude Code Local 处于多种趋势的交汇点:推动本地 AI 的浪潮、代码专用模型的兴起,以及对隐私保护开发工具的需求。涉及的关键参与者包括:

- nicedreamzapp(开发者): 一位独立开发者,通过交付一个精致且文档完善的项目,迅速赢得了社区信任。他们采用 Anthropic API 接口作为兼容层的做法非常巧妙——它允许用户保留现有的 Claude Code 工作流程,同时替换后端。
- Apple(通过 MLX): Apple 于 2023 年底发布的 MLX 框架,已成为在 Apple Silicon 上运行 LLM 的事实标准。其动态计算图和惰性张量求值特别适合代码生成中常见的可变长度序列。
- Google(通过 TurboQuant): Google 在量化方面的研究贡献至关重要。TurboQuant 于 2025 年初发布,建立在 Google 早期与 Gemma 模型合作的基础上,代表了在不牺牲质量的前提下实现更高压缩率方面的一个阶跃性变化。
- Alibaba(通过 Qwen 3.5): 于 2025 年 3 月发布的 Qwen 3.5 122B 模型,因其强大的编码性能和宽松的许可证而成为开源社区的最爱。它在大多数代码基准测试中优于 Llama 3.3 70B,而模型大小仅为后者的 1.7 倍。

竞争格局: Claude Code Local 在本地 AI 编码领域并非孤军奋战。以下是类似项目的比较:

|

更多来自 GitHub

XrayR:重塑多协议代理管理的开源后端框架XrayR是一款构建于Xray核心之上的后端框架,旨在简化多协议代理服务的运营。它支持V2Ray、Trojan和Shadowsocks协议,并能与SSpanel、V2Board等多个面板集成。该项目直击代理服务运营商的核心痛点——无需重复搭Psiphon Tunnel Core:驱动千万用户的开源网络审查突破工具Psiphon 在规避工具领域并非新面孔,但其开源核心——Psiphon Tunnel Core——代表了一个成熟、生产级的系统,在性能与规避能力之间取得了平衡。与简单的 VPN 或 Tor 网络不同,Psiphon 采用动态、多协议的方法acme.sh:零依赖的Shell脚本,默默支撑着半个互联网的SSLacme.sh是一个纯Unix Shell脚本(符合POSIX标准),实现了ACME协议,用于自动化SSL/TLS证书的签发与续期。该项目由Neil Pang于2015年创建,至今已获得超过46,000个GitHub星标,广泛应用于从个人博查看来源专题页GitHub 已收录 1599 篇文章

相关专题

local AI55 篇相关文章

时间归档

May 2026789 篇已发布文章

延伸阅读

MLX 在 Apple Silicon 上:一个类 NumPy 框架如何重塑端侧 AIMLX 是 ml-explore 推出的开源数组框架,正重新定义 Apple Silicon 上的端侧机器学习。凭借类 NumPy 的 API 和深度 Metal 后端优化,它利用统一内存和 GPU 加速,与 CUDA 工作流一较高下。本文OpenJarvis与个人AI之战:本地模型能否撼动云端霸权?AI领域正经历一场静默而深刻的去中心化革命。迅速崛起的开源项目OpenJarvis提出颠覆性愿景:在个人设备上运行完全独立的AI助手,彻底摆脱云端依赖。这场运动正挑战现代AI的经济与控制根基,在承诺绝对隐私的同时,也对硬件与算法提出严苛要求Rapid-MLX 炸裂登场:Apple Silicon 上 AI 推理速度碾压 Ollama 4.2 倍一款基于苹果 MLX 框架构建的开源推理引擎 Rapid-MLX,宣称在 Apple Silicon 上性能达到 Ollama 的 4.2 倍。其缓存首 Token 延迟仅 0.08 秒,并完整支持工具调用,正以“即插即用”的姿态成为本地 DreamServer:一站式本地AI服务器,能否终结云端订阅时代?Light-Hear Labs 推出的开源项目 DreamServer,将 LLM 推理、聊天界面、语音交互、智能代理、工作流自动化、RAG 及图像生成整合于一个本地部署包中。凭借 485 个 GitHub Star 和日均快速增长,它承诺

常见问题

GitHub 热点“Claude Code Local Runs 122B Models on Apple Silicon at 41 Tok/s – A New Era for Private AI Development”主要讲了什么?

Claude Code Local represents a significant leap in the democratization of large language models for code. By leveraging Apple's MLX framework and Google's TurboQuant quantization t…

这个 GitHub 项目在“how to install Claude Code Local on M2 Mac”上为什么会引发关注?

Claude Code Local's core innovation lies in its integration of three key technologies: Apple's MLX framework for efficient neural network computation on Apple Silicon, Google's TurboQuant quantization algorithm for reduc…

从“Claude Code Local vs Ollama for code generation”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 2376,近一日增长约为 923,这说明它在开源社区具有较强讨论度和扩散能力。