Box应用:为Android带来全栈本地AI套件,隐私优先设计

GitHub May 2026
⭐ 493📈 +174
来源:GitHubon-device AI归档:May 2026
一款名为Box的全新开源Android应用,将完整的私有AI套件完全运行在设备本地,集成了llama.cpp、whisper.cpp和stable-diffusion.cpp,支持GGUF模型导入、语音对话、视觉AI和图像生成,并通过生物识别锁和加密历史记录确保安全。

Box是Google AI Edge Gallery的一个分支,在GitHub上迅速走红,一天内获得近500颗星,显示出市场对移动端私有本地AI的强烈需求。该应用将多个推理引擎——用于大语言模型的llama.cpp、用于语音识别的whisper.cpp和用于图像生成的stable-diffusion.cpp——整合到一个统一的Android界面中。它支持GGUF模型导入,允许用户加载自定义的开源模型,并利用CPU、NPU和GPU加速提升性能。隐私是核心功能:所有处理都在本地进行,并配有生物识别锁和加密的对话历史记录。这使得Box成为离线AI助手、医疗、金融以及任何数据不能离开设备的场景的理想选择。然而,该项目仍需注意模型大小与设备性能的平衡。

技术深度解析

Box在架构上是Google AI Edge Gallery的一个分支,后者本身是在Android上运行TensorFlow Lite模型的参考实现。然而,Box用三个专门的C++推理引擎取代了TensorFlow Lite:llama.cpp、whisper.cpp和stable-diffusion.cpp。这是一个关键的工程决策,因为每个引擎都针对特定模态——文本生成、语音转文本和图像合成——进行了优化,而不是依赖单一的运行时环境。

llama.cpp(GitHub: ggerganov/llama.cpp,75k+星)是语言模型推理的支柱。它支持GGUF格式的模型,这些模型是Llama 3、Mistral和Gemma等流行开源LLM的量化版本。Box允许用户导入任何GGUF模型,这意味着该应用可以运行从1B到13B参数的模型,具体取决于手机内存。量化(通常是4位或8位)可将模型大小减少75-85%,使其在8-12GB内存的设备上可行。例如,一个7B参数的模型量化为4位后,占用约4GB存储空间,推理时需要约6GB内存。

whisper.cpp(GitHub: ggerganov/whisper.cpp,38k+星)负责自动语音识别(ASR)。它完全在设备本地运行Whisper模型变体(tiny、base、small、medium、large)。tiny模型(3900万参数)可以在现代手机CPU上实现近乎实时的转录,而large模型(15亿参数)提供更高的准确性,但需要更多计算资源。Box将其集成到语音聊天功能中,使用户无需任何云端往返即可与AI助手对话。

stable-diffusion.cpp(GitHub: leejet/stable-diffusion.cpp,6k+星)是Stable Diffusion的移植版,用于CPU/GPU推理。它支持1.5和XL变体,在配备GPU加速的Snapdragon 8 Gen 3上,生成512x512图像需要10-30秒。MediaTek Dimensity 9300或Apple A17 Pro等新芯片上的NPU(神经处理单元)可以加速某些操作,尽管实现仍在完善中。

| 模型 | 参数 | 量化 | 存储大小 | 内存使用 | 推理时间(token/s 或 s/image) |
|---|---|---|---|---|---|
| Llama 3 8B | 8B | 4-bit GGUF | 4.5 GB | 6 GB | 15-25 tokens/s |
| Mistral 7B | 7B | 4-bit GGUF | 3.9 GB | 5 GB | 20-30 tokens/s |
| Whisper tiny | 39M | FP16 | 75 MB | 200 MB | ~0.5倍实时 |
| Whisper large-v3 | 1.5B | FP16 | 2.9 GB | 3 GB | ~2倍实时 |
| Stable Diffusion 1.5 | 860M | FP16 | 1.7 GB | 2 GB | 15-25 s/image |
| Stable Diffusion XL | 2.6B | FP16 | 5.2 GB | 5 GB | 30-50 s/image |

数据要点: 表格显示,在手机上运行完整的LLM + ASR + 图像生成堆栈,只有通过激进量化和足够内存(8GB以上)才可行。推理速度可用,但图像生成并非实时。用户必须根据设备规格仔细选择模型大小。

Box还实现了生物识别锁(指纹/面部解锁)和加密历史记录存储,使用Android的EncryptedFile API。这确保了即使设备被攻破,对话日志仍然不可读。加密密钥源自设备的硬件支持密钥库,使其能够抵御软件攻击。

关键参与者与案例研究

Box是一个个人或小团队的开源项目,但它建立在边缘AI生态系统中多个关键参与者的工作之上:

- Georgi Gerganov(llama.cpp和whisper.cpp的创建者):他的C++实现已成为在消费硬件上运行LLM的事实标准。他的工作催生了Ollama、LM Studio以及现在的Box等项目。
- Lee Jet(stable-diffusion.cpp的创建者):将Stable Diffusion移植到无需Python依赖即可在CPU和GPU上高效运行,这对移动部署至关重要。
- Google AI Edge Gallery:Box分支的原始项目。Google的本地AI参考架构提供了UI框架和Android集成模式。

本地AI领域的竞争解决方案包括:

| 产品 | 模态 | 模型导入 | 隐私功能 | 平台 | GitHub星数 |
|---|---|---|---|---|---|
| Box | LLM, ASR, 图像生成 | GGUF | 生物识别锁, 加密历史 | Android | 493(快速增长中) |
| Ollama | 仅LLM | GGUF, GGML | 无(桌面) | 桌面(macOS, Linux, Windows) | 120k+ |
| LM Studio | 仅LLM | GGUF | 无(桌面) | 桌面 | 30k+ |
| MLC LLM | 仅LLM | MLCEngine | 无(移动) | Android, iOS | 20k+ |
| Private LLM | 仅LLM | 专有 | 仅本地 | iOS | N/A(商业) |

数据要点: Box的独特之处在于将三种模态(LLM、ASR、图像生成)整合到一个移动应用中,并具备强大的隐私功能。大多数竞争对手只关注LLM或仅限桌面。这使Box在全能型移动私有AI领域占据了先发优势。

行业影响与市场动态

本地AI市场预计将从2024年的100亿美元增长到2028年的500亿美元(复合年增长率约38%),这得益于隐私法规(如GDPR和CCPA)的推动,以及用户对数据主权意识的增强。Box正好处于这一趋势的前沿,提供了一个将敏感数据完全保留在设备上的解决方案。

然而,挑战依然存在。模型大小与设备内存之间的权衡意味着,在旗舰手机上运行7B参数模型是可行的,但在中端设备上可能受限。此外,图像生成速度(30-50秒/图像)对于实时应用来说仍然太慢。Box的未来发展可能包括对更高效模型架构(如Mamba或RWKV)的支持,以及通过Android NN API更好地利用NPU。

从更广泛的行业角度来看,Box代表了向边缘AI民主化迈出的一步。通过将三个强大的推理引擎整合到一个开源应用中,它降低了开发者和高级用户实验本地AI的门槛。这可能会加速移动AI助手的采用,特别是在隐私敏感领域,如医疗保健(患者数据不能离开设备)、金融(交易分析)和国防(安全通信)。

总之,Box不仅仅是一个应用——它是移动AI领域的一个宣言:强大的AI能力不必以牺牲隐私为代价。随着硬件能力的提升和量化技术的改进,像Box这样的应用可能成为新常态,将AI从云端解放出来,直接放入用户的口袋中。

更多来自 GitHub

DriveLM:图式VQA如何重写自动驾驶认知规则自动驾驶长期面临一个根本性矛盾:端到端神经网络模型虽然性能惊艳,但决策过程不透明;模块化流水线虽然可解释,却牺牲了系统集成度。DriveLM作为ECCV 2024 Oral论文发表,并在GitHub上开源(opendrivelab/drivPyribs:解锁质量多样性优化潜能的极简主义Python库质量多样性优化(Quality Diversity Optimization)是一种不仅追求单一高性能解,而是寻找多样化高性能解集合的范式,长期以来在机器人与游戏AI领域扮演着小众但强大的角色。由南加州大学(USC)研究人员开发的开源库PyEvoTorch:NNAISENSE 打造的原生 PyTorch 进化库,正在重塑 AI 优化格局EvoTorch 并非又一个普通的进化算法(EA)库;它是对深度学习领域日益增长的可扩展、梯度感知优化需求的一种深思熟虑的架构回应。由以神经进化和强化学习(RL)研究闻名的瑞士 AI 公司 NNAISENSE 开发,EvoTorch 直接构查看来源专题页GitHub 已收录 2247 篇文章

相关专题

on-device AI39 篇相关文章

时间归档

May 20262833 篇已发布文章

延伸阅读

PocketPal AI:让大语言模型离线跑在手机里,隐私与性能的终极博弈一款名为 PocketPal AI 的开源应用,正将智能手机转变为私密、离线的 AI 助手。它直接在设备上运行大语言模型,承诺绝对隐私与零延迟——但代价是原始计算能力的妥协。苹果Core ML稳定扩散:设备端图像生成重新定义隐私与性能苹果正式发布基于Core ML的Stable Diffusion实现,针对Apple Silicon(M1/M2/M3)深度优化,让Mac和iPad无需联网即可快速、私密地生成图像,并充分利用神经网络引擎(ANE)实现高效推理。这一举措标志ExLlamaV3:开源引擎让消费级GPU跑本地大模型不再是梦ExLlamaV3,一款来自turboderp的尖端开源库,正在重新定义消费级GPU上本地LLM推理的可能性。通过将激进量化与自定义CUDA内核引擎相结合,它大幅削减了VRAM需求和延迟,使得前沿模型在RTX 4090这样的单卡硬件上也能流WebNN:让每个浏览器标签页都能运行AI的W3C标准W3C社区组正在最终敲定Web神经网络API(WebNN),这是一个底层、硬件无关的接口,旨在为每个网页浏览器带来原生级、硬件加速的AI推理能力。这一标准有望最终实现实时图像分类、语音识别和轻量级LLM,无需服务器往返,从根本上改变边缘AI

常见问题

GitHub 热点“Box App Brings Full On-Device AI Suite to Android with Privacy-First Design”主要讲了什么?

Box, a fork of Google's AI Edge Gallery, has rapidly gained traction on GitHub with nearly 500 stars in a single day, signaling strong demand for private, on-device AI on mobile. T…

这个 GitHub 项目在“Box Android on-device AI privacy features”上为什么会引发关注?

Box is architecturally a fork of Google's AI Edge Gallery, which itself is a reference implementation for running TensorFlow Lite models on Android. However, Box replaces TensorFlow Lite with three specialized C++ infere…

从“llama.cpp GGUF model import Android Box”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 493,近一日增长约为 174,这说明它在开源社区具有较强讨论度和扩散能力。