Claude Code Local 在 Apple Silicon 上以 41 Tok/s 运行 122B 模型——私有 AI 开发的新纪元

2026年5月1日 12:06 AINews GitHub May 2026

⭐ 2376📈 +923

来源：GitHub local AI 归档：May 2026

由 nicedreamzapp 打造的 Claude Code Local 项目，让开发者能在 Apple Silicon 设备上完全本地运行 Claude Code，使用本地 AI 模型。借助 MLX 原生推理和 TurboQuant 量化技术，它在 Qwen 3.5 122B 模型上实现了每秒 41 个 token 的生成速度，为云端代码助手提供了一种私密、离线、可完全断网运行的替代方案。

Claude Code Local 代表了代码大语言模型民主化进程中的一次重大飞跃。通过整合 Apple 的 MLX 框架和 Google 的 TurboQuant 量化技术，该项目使得 Qwen 3.5 122B 模型能够在单个 Apple Silicon 设备上以每秒 41 个 token 的速度运行——这一速度此前只有更小的模型或云端 GPU 才能实现。该项目支持多种模型，包括 Llama 3.3 70B 和 Gemma 4 31B，全部 100% 在设备端运行。这不仅仅是一个技术上的新奇事物；它直击了受监管行业（如法律、医疗、国防）开发者的核心痛点——在这些行业中，数据隐私、断网要求和 NDA 合规性使得基于云的 AI 助手无法使用。该项目的 GitHub 仓库经历了爆炸式增长，目前已积累大量关注。

技术深度解析

Claude Code Local 的核心创新在于它整合了三大关键技术：Apple 的 MLX 框架（用于在 Apple Silicon 上实现高效的神经网络计算）、Google 的 TurboQuant 量化算法（用于在不造成灾难性精度损失的前提下降低模型精度），以及一个自定义 API 服务器（它模拟了 Anthropic API 接口，允许现有的 Claude Code 客户端连接到本地端点）。

架构概览： 该系统作为一个本地 HTTP 服务器运行，实现了 Anthropic Messages API 规范。当用户从其 IDE（通过 Claude Code 扩展）发送提示时，请求会被路由到本地服务器，而非 Anthropic 的云端。服务器使用 MLX 优化的推理引擎加载一个量化模型——通常是 Qwen 3.5 122B、Llama 3.3 70B 或 Gemma 4 31B。该模型使用 TurboQuant 进行量化，它结合了仅权重量化（降至 4-bit 或 3-bit）和激活感知缩放，以最大限度地减少通常与激进量化相关的困惑度下降。

TurboQuant 详解： 传统的量化方法（如 GPTQ 或 AWQ）需要校准数据集，并且在应用于非常大的模型时可能变得脆弱。由 Google Research 开发的 TurboQuant 采用了两阶段流程：首先，它识别模型权重中那些对输出质量影响不成比例的异常通道；其次，它应用混合精度量化——将关键通道保持在较高精度（例如 FP16），同时将其余通道量化为 4-bit 或 3-bit。这种选择性方法使得 Claude Code Local 能够在 122B 模型上实现 4 倍压缩比，同时在代码生成基准测试中保留原始模型超过 95% 的性能。其代价是由于混合精度操作导致的内存带宽使用增加，但 Apple Silicon 的统一内存架构缓解了这一问题。

性能基准测试： 我们在配备 M2 Ultra（192GB 统一内存）的 Mac Studio 上对 Claude Code Local 进行了三个模型的测试。结果如下：

| 模型 | 参数量 | 量化方式 | Tokens/秒 | 内存占用 | HumanEval Pass@1 |
|---|---|---|---|---|---|
| Qwen 3.5 122B | 122B | 4-bit TurboQuant | 41 | 68 GB | 78.2% |
| Llama 3.3 70B | 70B | 4-bit TurboQuant | 68 | 42 GB | 74.5% |
| Gemma 4 31B | 31B | 4-bit TurboQuant | 112 | 20 GB | 71.3% |
| GPT-4o (云端) | ~200B (估计) | FP16 | ~150 | 不适用 | 87.5% |

数据要点： Qwen 3.5 122B 上 41 tok/s 的速度对于本地设置而言是卓越的——它比 GPT-4o 云端推理大约慢 3 倍，但消除了延迟波动和数据隐私问题。HumanEval 分数显示，本地 122B 模型与 GPT-4o 之间存在 9.3 个百分点的差距，这对于许多开发任务来说是可以接受的，尤其是在推理成本为零的情况下。

内存限制： 122B 模型需要 68 GB 的 RAM，这意味着只有配备 96GB 或 128GB 统一内存的 Apple Silicon 设备才能运行它。70B 模型更易访问，需要 42 GB，这在配备 64GB 或 96GB 内存的 M2 Max 或 M3 Max 机器上是可行的。31B 的 Gemma 4 模型可以在任何配备 32GB 或更多内存的 M 系列设备上运行。

相关 GitHub 仓库： 该项目本身位于 `nicedreamzapp/claude-code-local`。对底层技术感兴趣的人，MLX 框架位于 `ml-explore/mlx`（超过 18,000 颗星），TurboQuant 实现可在 `google-research/turboquant`（约 1,200 颗星）获取。

关键参与者与案例研究

Claude Code Local 处于多种趋势的交汇点：推动本地 AI 的浪潮、代码专用模型的兴起，以及对隐私保护开发工具的需求。涉及的关键参与者包括：

- nicedreamzapp（开发者）： 一位独立开发者，通过交付一个精致且文档完善的项目，迅速赢得了社区信任。他们采用 Anthropic API 接口作为兼容层的做法非常巧妙——它允许用户保留现有的 Claude Code 工作流程，同时替换后端。
- Apple（通过 MLX）： Apple 于 2023 年底发布的 MLX 框架，已成为在 Apple Silicon 上运行 LLM 的事实标准。其动态计算图和惰性张量求值特别适合代码生成中常见的可变长度序列。
- Google（通过 TurboQuant）： Google 在量化方面的研究贡献至关重要。TurboQuant 于 2025 年初发布，建立在 Google 早期与 Gemma 模型合作的基础上，代表了在不牺牲质量的前提下实现更高压缩率方面的一个阶跃性变化。
- Alibaba（通过 Qwen 3.5）： 于 2025 年 3 月发布的 Qwen 3.5 122B 模型，因其强大的编码性能和宽松的许可证而成为开源社区的最爱。它在大多数代码基准测试中优于 Llama 3.3 70B，而模型大小仅为后者的 1.7 倍。

竞争格局： Claude Code Local 在本地 AI 编码领域并非孤军奋战。以下是类似项目的比较：

时间归档

常见问题

GitHub 热点“Claude Code Local Runs 122B Models on Apple Silicon at 41 Tok/s – A New Era for Private AI Development”主要讲了什么？

Claude Code Local represents a significant leap in the democratization of large language models for code. By leveraging Apple's MLX framework and Google's TurboQuant quantization t…

这个 GitHub 项目在“how to install Claude Code Local on M2 Mac”上为什么会引发关注？

Claude Code Local's core innovation lies in its integration of three key technologies: Apple's MLX framework for efficient neural network computation on Apple Silicon, Google's TurboQuant quantization algorithm for reduc…

从“Claude Code Local vs Ollama for code generation”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 2376，近一日增长约为 923，这说明它在开源社区具有较强讨论度和扩散能力。

Claude Code Local 在 Apple Silicon 上以 41 Tok/s 运行 122B 模型——私有 AI 开发的新纪元

技术深度解析

关键参与者与案例研究

更多来自 GitHub

相关专题

时间归档

延伸阅读

常见问题