技术深度解析
PSP LLM的突破建立在模型压缩的三大支柱上:量化、剪枝和内核优化。让我们逐一剖析。
量化:从32位到2位
大多数LLM以32位浮点(FP32)或16位(FP16)训练。PSP没有FPU——它使用定点运算。开发者将所有模型权重转换为4位甚至2位整数表示。这是一种极端的量化形式,通常会导致标准基准测试中困惑度下降15–30%,但内存占用减少8到16倍。对于一个1.1B参数的TinyLlama模型(FP32下通常约4.4GB),2位量化将其降至约275MB——对PSP的32MB内存来说仍然过大。因此需要进一步剪枝。
剪枝:移除90%的连接
结构化剪枝消除了对输出质量贡献最小的整个注意力头和前馈层。开发者很可能采用了基于幅度的剪枝,随后在小型数据集上进行微调以恢复精度。最终模型仅保留约1亿活跃参数,其余参数归零且不存储。这是2023年流行的SparseGPT或Wanda技术的极端版本。剪枝后的模型大小:量化后约25MB,轻松适配PSP内存。
自定义推理内核
PSP运行定制MIPS R4000 CPU。开发者用C语言编写了专门的推理引擎,并针对矩阵-向量乘法——Transformer推理的核心运算——手工优化了MIPS汇编代码。该内核利用了PSP有限的类SIMD指令(VFPU,一个向量浮点单元,被重新用于整数运算)。结果:生成速度约0.5–1 token/秒。以现代标准看慢得令人痛苦,但功能完整。
基准性能
| 模型 | 硬件 | 内存 | 量化 | Tokens/秒 | 困惑度(WikiText-2) |
|---|---|---|---|---|---|
| TinyLlama 1.1B (FP32) | RTX 4090 | 4.4 GB | 无 | 5,000 | 12.3 |
| TinyLlama 1.1B (4-bit) | Raspberry Pi 5 | 275 MB | 4-bit | 15 | 15.1 |
| PSP LLM (2-bit, 剪枝) | Sony PSP | 25 MB | 2-bit + 90%剪枝 | 0.8 | ~28(估计) |
| Llama 3.2 3B (4-bit) | iPhone 15 Pro | 1.5 GB | 4-bit | 30 | 11.0 |
数据要点: PSP LLM相比Raspberry Pi上的4位TinyLlama,困惑度惩罚达2.3倍,但它运行在内存少10倍、算力低20倍的硬件上。质量与可及性之间的权衡极为鲜明:你牺牲了流畅性,却换来了在eBay上仅售20美元的设备上运行AI的能力。
相关开源仓库
- llama.cpp(GitHub,70k+星标):量化LLM的基础C++推理引擎。PSP移植版很可能借用了其量化例程。
- TinyLlama(GitHub,8k+星标):1.1B参数模型,在3万亿token上训练,专为边缘部署设计。PSP模型很可能源于此。
- SparseGPT(GitHub,3k+星标):一次性剪枝技术,可移除50–80%权重而无需重新训练。开发者可能使用了该技术。
- PSPDev(GitHub,2k+星标):PSD开发的家用SDK。推理内核基于此工具链构建。
关键玩家与案例研究
该实验由复古计算社区中化名“HackerOfThings”的独立开发者完成。没有大公司直接参与,但所用技术与多家边缘AI初创公司正在商业化的方法如出一辙。
边缘AI解决方案对比
| 方案 | 目标硬件 | 模型大小限制 | 量化 | 延迟(首个token) | 单件成本 |
|---|---|---|---|---|---|
| PSP LLM(本文) | Sony PSP (2004) | 25 MB | 2-bit + 剪枝 | 1.2秒 | ~$30(二手) |
| Raspberry Pi + llama.cpp | Raspberry Pi 5 | 500 MB | 4-bit | 50毫秒 | $80 |
| ESP32-S3 + tinyML | 微控制器 | 2 MB | 8-bit | 200毫秒 | $5 |
| Apple Neural Engine | iPhone 15 Pro | 2 GB | 4-bit | 10毫秒 | $1,000 |
| NVIDIA Jetson Orin Nano | 嵌入式GPU | 8 GB | FP16 | 5毫秒 | $250 |
数据要点: PSP占据了一个独特生态位:它比Raspberry Pi更便宜,但比微控制器能力更强。其32MB内存是一个甜蜜点,允许运行比ESP32所能处理的更大的模型,而成本仅为现代边缘设备的一小部分。这暗示了一个利用回收或低端SoC的超低成本AI设备市场机会。
知名研究者
- Tim Dettmers(华盛顿大学):以QLoRA开创4位量化。他在分块量化方面的工作直接实现了亚4位推理。
- Elias Frantar(IST Austria):共同开发了SparseGPT,这种一次性剪枝方法很可能使PSP模型成为可能。
- Song Han(MIT):模型压缩的长期倡导者;他在深度压缩(2015)方面的工作为极端量化奠定了理论基础。
行业影响与市场动态
PSP LLM是一个概念验证,但它预示着行业对AI硬件门槛思考方式的板块性转变。当一台20年前的掌机都能运行LLM时,所谓的“边缘AI硬件门槛”是否被人为抬高?如果模型压缩技术持续进步,任何带有CPU和内存的设备——从旧手机到工业控制器——都可能成为AI终端。这直接挑战了当前行业对云端推理的路径依赖,也为数十亿尚未接入高端智能手机的用户开辟了可能性。
从商业角度看,这为“AI家电化”铺平了道路:想象一台售价29美元的AI助手设备,基于回收的SoC,运行压缩后的LLM,无需联网即可处理基本问答、文本摘要或翻译。PSP实验证明,这种设备在技术上已经可行。
然而,代价同样明显:2位量化加90%剪枝后的模型,其输出质量远低于云端模型。对于需要高精度的任务——如医疗诊断或法律分析——这种方案毫无意义。但对于低风险场景——如教育工具、离线聊天机器人或基本内容生成——质量损失或许可以接受。
最终,PSP LLM的价值不在于它跑得多快或多好,而在于它证明了“不可能”只是尚未被尝试。当硬件门槛被拉低到20美元时,AI的普及将不再取决于芯片巨头的路线图,而取决于压缩算法的创造力。