技术深度解析
Axiom的架构堪称极简主义的典范。其内核核心仅实现了三种抽象:一个物理内存分配器、一个单线程任务调度器,以及一个用于PCIe和NVMe设备的硬件抽象层。没有虚拟内存,没有进程隔离,也没有文件I/O的系统调用开销。内核在启动时将整个模型权重文件映射到一个连续的物理内存区域,使用大页(2MB或1GB)来最小化推理过程中的TLB未命中。注意力机制和前馈层在一个紧密循环中执行,CPU或GPU通过内存映射I/O直接接收指令。
一个关键的工程决策是利用Rust的所有权模型来保证内存安全,而无需垃圾回收器。内核在初始化后不使用堆分配;所有缓冲区都是静态分配的,或从固定大小的竞技场中分配。这消除了可能导致关键任务推理服务器崩溃的内存泄漏或释放后使用错误。中断处理被简化为一个用于看门狗目的的定时器中断;所有I/O都采用轮询方式,从而避免了中断驱动驱动程序的延迟抖动。
该项目在GitHub上以仓库名`axiom-os/axiom`提供。截至2025年7月,它已获得超过4200颗星和150个分支。该仓库包含一个参考实现,用于在配备NVIDIA GPU的x86-64机器上运行量化后的LLaMA-3 8B模型。内核本身大约有8000行Rust代码,而Linux则有超过3000万行。
基准测试数据:
| 指标 | Linux + llama.cpp (CUDA) | Axiom (裸机) | 改进幅度 |
|---|---|---|---|
| 首令牌时间 (8B模型, FP16) | 320 毫秒 | 210 毫秒 | 减少 34% |
| 每秒令牌数 (批大小 1) | 52.4 | 78.1 | 增加 49% |
| 每令牌能耗 (焦耳) | 0.84 | 0.51 | 减少 39% |
| 内存带宽利用率 | 62% | 89% | 增加 43% |
| 第99百分位延迟抖动 | ±15 毫秒 | ±2 毫秒 | 减少 87% |
数据解读: 基准测试表明,Axiom的主要优势不在于原始吞吐量,而在于可预测性和效率。延迟抖动减少87%对于语音助手或自动驾驶系统等实时应用至关重要——单个延迟的令牌就可能破坏用户体验。内存带宽利用率从62%提升到89%表明,Linux的虚拟内存系统和上下文切换开销浪费了近三分之一的可用DRAM带宽。
关键参与者与案例研究
Axiom项目由剑桥大学和马克斯·普朗克软件系统研究所的一个小型系统研究团队发起,由前Red Hat内核开发者Elena Vogt博士领导。该团队之前的工作包括`theseus`操作系统研究项目,该项目探索了基于Rust的操作系统设计用于安全关键系统。Axiom将这一理念扩展到了AI工作负载。
已有几家公司正在尝试类似的方法。Cerebras Systems以其晶圆级芯片闻名,为其CS-3系统开发了一个绕过操作系统的自定义运行时,实现了其计算结构近100%的利用率。Groq及其LPU(语言处理单元)采用了一种确定性的单线程执行模型,与Axiom的理念非常相似——尽管Groq的解决方案是硬件特定的。Modular AI,即Mojo编程语言背后的公司,在其公开演讲中倡导了“AI内核”的概念,但尚未发布独立的操作系统。
在开源方面,llama.cpp仍然是最流行的推理引擎,但它运行在Linux、macOS或Windows之上。Axiom的方法具有互补性:它可以作为llama.cpp模型加载和量化逻辑的运行时层,取代底层的操作系统。
竞争方案对比:
| 解决方案 | 操作系统依赖 | 延迟抖动 | 能效 | 硬件支持 | 开源 |
|---|---|---|---|---|---|
| Axiom | 无 (裸机) | ±2 毫秒 | 0.51 焦耳/令牌 | x86-64, NVIDIA GPU | 是 |
| llama.cpp on Linux | Linux | ±15 毫秒 | 0.84 焦耳/令牌 | x86-64, ARM, GPU | 是 |
| Groq LPU | 专有固件 | ±1 毫秒 | 0.30 焦耳/令牌 | 仅限Groq硬件 | 否 |
| Cerebras CS-3 | 自定义运行时 | ±3 毫秒 | 0.40 焦耳/令牌 | 仅限Cerebras硬件 | 否 |
| vLLM on Linux | Linux | ±20 毫秒 | 0.90 焦耳/令牌 | x86-64, GPU | 是 |
数据解读: Axiom占据了一个独特的利基市场:它是唯一一个开源、硬件无关的解决方案,能够匹配Groq等专有硬件的延迟确定性。虽然它无法与Groq的绝对能效(得益于定制芯片)相媲美,但它为任何拥有标准GPU的组织提供了一条实现接近定制硬件性能的途径。
行业影响与市场动态
Axiom的兴起反映了一个更广泛的趋势:“推理的商品化”正在推动对专用基础设施的需求。根据市场研究,AI推理市场预计到2028年将以超过40%的复合年增长率增长,达到超过800亿美元的规模。随着模型变得更大、更复杂,通用操作系统的开销变得越来越难以承受。
Axiom的方法并非没有权衡。通过放弃虚拟内存和进程隔离,它牺牲了多租户安全性和灵活性。该内核一次只能运行一个模型,并且没有保护机制来防止恶意权重文件破坏系统。这使得它更适合专用推理服务器,而不是通用云平台。然而,对于许多用例——例如边缘设备、专用API端点或内部部署的模型服务器——这些限制是可以接受的。
该项目还引发了关于AI硬件-软件协同设计未来的更广泛讨论。如果像Axiom这样的专用内核能够为LLM推理提供10倍的效率提升,那么芯片设计者可能会开始围绕这些内核优化他们的硬件,而不是围绕Linux。这可能导致一个良性循环:更好的软件实现更好的硬件利用率,从而推动更专业的AI芯片的发展。
编辑评论
Axiom是一个令人耳目一新的提醒,提醒我们有时最好的解决方案不是增加更多层,而是剥离它们。在AI领域,我们倾向于通过增加更多GPU、更大模型和更复杂的框架来解决性能问题。Axiom团队采取了相反的方法:他们问了一个简单的问题——“如果我们移除所有不必要的东西,会发生什么?”——并构建了一个优雅的答案。
这并不是说Axiom会取代Linux。Linux的通用性正是其优势所在,而Axiom的专用性既是其力量也是其弱点。但Axiom确实提出了一个令人信服的论点,即对于AI推理,通用操作系统可能是一个瓶颈,而不是一个推动者。随着AI从实验阶段过渡到生产阶段,我们可能会看到更多这样的专用运行时出现——每个运行时都针对特定类型的工作负载进行了优化。
该项目目前处于早期阶段,但方向是正确的。如果你正在运行生产级LLM推理,并且对延迟抖动或能效感到困扰,那么Axiom值得你花时间研究。它可能不是最终的解决方案,但它是一个重要的里程碑——一个提醒我们,在追求AI性能的过程中,有时最好的创新来自底层。