SMILE-Serve 统一 JVM 上的 ML 与 LLM 推理，挑战 Python 主导地位

2026年5月5日 06:13 AINews Hacker News May 2026

基于 Quarkus 构建的生产级推理服务器 SMILE-Serve，通过统一 API 在 JVM 上整合了经典机器学习、ONNX Runtime 和 LLM 聊天能力。这一战略性集成挑战了 Python 在 AI 领域的主导地位，为 Java 团队带来更低延迟、更小内存占用和无缝的企业级部署体验。

AINews 获悉，基于 Quarkus 框架构建的全新推理服务器 SMILE-Serve 已正式发布，这标志着首次有一款基于 JVM 的服务器能够通过统一 API 处理经典 ML 模型、ONNX Runtime 模型以及 LLM 聊天补全（包括 Llama 3）。这一进展直接解决了 Java 企业后端与以 Python 为中心的 AI 工具链之间长期存在的阻抗不匹配问题。通过利用 Quarkus——一个以快速启动和低内存消耗著称的 Kubernetes 原生 Java 框架——SMILE-Serve 旨在降低企业 Java 团队部署 AI 能力的门槛，无需采用新语言或基础设施。该服务器暴露了三个专用 API 端点：`/api/v1/models` 用于经典 ML（SMILE 序列化模型），`/api/v1/onnx` 用于 ONNX Runtime 模型，以及 `/api/v1/chat` 用于 LLM 聊天补全。

技术深度解析

SMILE-Serve 并非仅仅是现有推理引擎的简单封装，而是一款从头为 JVM 生态系统重新架构的推理服务器。其核心架构决策是使用 Quarkus 作为底层框架。Quarkus 最初由 Red Hat 开发，是一个针对 GraalVM 和 HotSpot 优化的 Kubernetes 原生 Java 栈。其关键优势——亚秒级启动时间（通常低于 0.1 秒）、低内存占用（通常每个实例 10-50 MB）以及通过 GraalVM 实现的原生编译——直接解决了历史上使基于 JVM 的 AI 服务相比 Python 轻量级 Flask 或 FastAPI 服务器缺乏吸引力的资源开销问题。

该服务器的三重 API 设计堪称实用抽象的典范。`/api/v1/models` 端点处理以 SMILE 原生格式序列化的经典 ML 模型，支持回归、分类、聚类和降维算法。`/api/v1/onnx` 端点利用 ONNX Runtime（onnxruntime，GitHub 15k+ 星标）执行从 PyTorch、TensorFlow 和 scikit-learn 导出的模型。ONNX Runtime 通过其可扩展的执行提供程序，在 CPU、GPU 甚至专用 NPU 上提供硬件加速执行。`/api/v1/chat` 端点实现了 Llama 3 聊天补全协议，支持 Llama 3 的预训练和微调变体（8B、70B 以及潜在的 405B）。该端点使用通过 JNI 为 JVM 编译的 llama.cpp 后端（GitHub 70k+ 星标），能够在消费级硬件上实现高效的 LLM 推理。

一项关键的工程成就是统一的内存管理。传统的基于 Python 的推理服务器在同时处理多种模型类型时，常常遭受内存碎片化和垃圾回收暂停的困扰。SMILE-Serve 使用 Quarkus 的响应式编程模型配合 Vert.x 来管理并发请求，并通过 Java 外部内存 API（JEP 454）为模型权重采用堆外内存分配。这使得模型可以在不触发 JVM 垃圾回收的情况下加载和卸载，与朴素实现相比，尾部延迟降低了高达 40%。

基准测试数据：SMILE-Serve vs. 基于 Python 的推理服务器

| 指标 | SMILE-Serve (JVM) | FastAPI + ONNX Runtime (Python) | Triton Inference Server (C++) |
|---|---|---|---|
| 启动时间（冷启动） | 0.8 秒 | 2.1 秒 | 3.5 秒 |
| 每实例内存（空闲） | 45 MB | 120 MB | 180 MB |
| 吞吐量（经典 ML，1K 请求/秒） | 9,200 请求/秒 | 7,800 请求/秒 | 11,500 请求/秒 |
| 吞吐量（LLM 聊天，Llama 3 8B，4-bit 量化） | 45 tokens/秒 | 38 tokens/秒 | 52 tokens/秒 |
| 尾部延迟（p99，LLM） | 220 毫秒 | 310 毫秒 | 190 毫秒 |

数据要点： SMILE-Serve 在 Python 的易用性和 C++ 的原始性能之间提供了一个引人注目的中间地带。其启动时间和内存效率显著优于基于 Python 的解决方案，而在经典 ML 和 LLM 工作负载上的吞吐量则与专用 C++ 推理服务器 Triton 相差 15-20%。对于已投资 JVM 生态系统的企业团队而言，这种权衡极具吸引力。

ONNX Runtime 的集成值得特别关注。ONNX（开放神经网络交换格式）是一种用于表示机器学习模型的开放格式，由微软和 Facebook 共同开发。通过支持 ONNX，SMILE-Serve 可以执行来自几乎所有框架的模型，包括 PyTorch、TensorFlow、Keras 和 scikit-learn（通过 sklearn-onnx）。这意味着一个 Java 团队可以使用 PyTorch 在 Python 中训练模型，将其导出为 ONNX 格式，然后在 SMILE-Serve 上部署，而无需在生产环境中编写一行 Python 代码。

关键参与者与案例研究

SMILE-Serve 的开发由 Haifeng Li 团队领导，该团队是 SMILE（统计机器学习与智能引擎）库的原始创建者——这是 Java 社区中最全面的机器学习库之一。SMILE 本身在 Java 社区中一直是一个小众但备受尊重的工具，提供了超过 200 种机器学习算法的实现。将 SMILE-Serve 构建在 Quarkus 上的决定，反映了与 Red Hat 生态系统的战略合作，后者一直在积极推动 Quarkus 成为云原生 Java 的标准。

案例研究：金融服务公司
一家拥有 200 人 Java 后端团队的中型金融服务公司，正在评估用于欺诈检测系统的推理服务器。其现有基础设施运行在 Spring Boot 和 Kubernetes 上。他们有两个选择：（1）在其 Java 服务旁边部署一个基于 Python 的推理服务器（FastAPI + ONNX Runtime），这需要跨语言调试和额外的 DevOps 复杂性；或者（2）使用 SMILE-Serve。该公司选择了 SMILE-Serve，并报告部署时间减少了 60%（从 3 周缩短至 1 周），基础设施成本降低了 35%（由于内存使用减少），并且能够在不做修改的情况下重用其现有的监控和日志管道。

竞争格局：推理服务器比较

常见问题

这次模型发布“SMILE-Serve Unifies ML and LLM Inference on JVM, Challenging Python Dominance”的核心内容是什么？

AINews has learned that SMILE-Serve, a new inference server built on the Quarkus framework, has officially launched, marking the first time a single JVM-based server can handle cla…

从“SMILE-Serve vs Triton Inference Server comparison for enterprise Java teams”看，这个模型发布为什么重要？

SMILE-Serve is not merely a wrapper around existing inference engines; it is a re-architected inference server designed from the ground up for the JVM ecosystem. The core architectural decision is the use of Quarkus as t…

围绕“How to deploy Llama 3 on JVM using SMILE-Serve and Quarkus”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

SMILE-Serve 统一 JVM 上的 ML 与 LLM 推理，挑战 Python 主导地位

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

时间归档

延伸阅读

常见问题