SMILE-Serve 统一 JVM 上的 ML 与 LLM 推理,挑战 Python 主导地位

Hacker News May 2026
来源:Hacker News归档:May 2026
基于 Quarkus 构建的生产级推理服务器 SMILE-Serve,通过统一 API 在 JVM 上整合了经典机器学习、ONNX Runtime 和 LLM 聊天能力。这一战略性集成挑战了 Python 在 AI 领域的主导地位,为 Java 团队带来更低延迟、更小内存占用和无缝的企业级部署体验。

AINews 获悉,基于 Quarkus 框架构建的全新推理服务器 SMILE-Serve 已正式发布,这标志着首次有一款基于 JVM 的服务器能够通过统一 API 处理经典 ML 模型、ONNX Runtime 模型以及 LLM 聊天补全(包括 Llama 3)。这一进展直接解决了 Java 企业后端与以 Python 为中心的 AI 工具链之间长期存在的阻抗不匹配问题。通过利用 Quarkus——一个以快速启动和低内存消耗著称的 Kubernetes 原生 Java 框架——SMILE-Serve 旨在降低企业 Java 团队部署 AI 能力的门槛,无需采用新语言或基础设施。该服务器暴露了三个专用 API 端点:`/api/v1/models` 用于经典 ML(SMILE 序列化模型),`/api/v1/onnx` 用于 ONNX Runtime 模型,以及 `/api/v1/chat` 用于 LLM 聊天补全。

技术深度解析

SMILE-Serve 并非仅仅是现有推理引擎的简单封装,而是一款从头为 JVM 生态系统重新架构的推理服务器。其核心架构决策是使用 Quarkus 作为底层框架。Quarkus 最初由 Red Hat 开发,是一个针对 GraalVM 和 HotSpot 优化的 Kubernetes 原生 Java 栈。其关键优势——亚秒级启动时间(通常低于 0.1 秒)、低内存占用(通常每个实例 10-50 MB)以及通过 GraalVM 实现的原生编译——直接解决了历史上使基于 JVM 的 AI 服务相比 Python 轻量级 Flask 或 FastAPI 服务器缺乏吸引力的资源开销问题。

该服务器的三重 API 设计堪称实用抽象的典范。`/api/v1/models` 端点处理以 SMILE 原生格式序列化的经典 ML 模型,支持回归、分类、聚类和降维算法。`/api/v1/onnx` 端点利用 ONNX Runtime(onnxruntime,GitHub 15k+ 星标)执行从 PyTorch、TensorFlow 和 scikit-learn 导出的模型。ONNX Runtime 通过其可扩展的执行提供程序,在 CPU、GPU 甚至专用 NPU 上提供硬件加速执行。`/api/v1/chat` 端点实现了 Llama 3 聊天补全协议,支持 Llama 3 的预训练和微调变体(8B、70B 以及潜在的 405B)。该端点使用通过 JNI 为 JVM 编译的 llama.cpp 后端(GitHub 70k+ 星标),能够在消费级硬件上实现高效的 LLM 推理。

一项关键的工程成就是统一的内存管理。传统的基于 Python 的推理服务器在同时处理多种模型类型时,常常遭受内存碎片化和垃圾回收暂停的困扰。SMILE-Serve 使用 Quarkus 的响应式编程模型配合 Vert.x 来管理并发请求,并通过 Java 外部内存 API(JEP 454)为模型权重采用堆外内存分配。这使得模型可以在不触发 JVM 垃圾回收的情况下加载和卸载,与朴素实现相比,尾部延迟降低了高达 40%。

基准测试数据:SMILE-Serve vs. 基于 Python 的推理服务器

| 指标 | SMILE-Serve (JVM) | FastAPI + ONNX Runtime (Python) | Triton Inference Server (C++) |
|---|---|---|---|
| 启动时间(冷启动) | 0.8 秒 | 2.1 秒 | 3.5 秒 |
| 每实例内存(空闲) | 45 MB | 120 MB | 180 MB |
| 吞吐量(经典 ML,1K 请求/秒) | 9,200 请求/秒 | 7,800 请求/秒 | 11,500 请求/秒 |
| 吞吐量(LLM 聊天,Llama 3 8B,4-bit 量化) | 45 tokens/秒 | 38 tokens/秒 | 52 tokens/秒 |
| 尾部延迟(p99,LLM) | 220 毫秒 | 310 毫秒 | 190 毫秒 |

数据要点: SMILE-Serve 在 Python 的易用性和 C++ 的原始性能之间提供了一个引人注目的中间地带。其启动时间和内存效率显著优于基于 Python 的解决方案,而在经典 ML 和 LLM 工作负载上的吞吐量则与专用 C++ 推理服务器 Triton 相差 15-20%。对于已投资 JVM 生态系统的企业团队而言,这种权衡极具吸引力。

ONNX Runtime 的集成值得特别关注。ONNX(开放神经网络交换格式)是一种用于表示机器学习模型的开放格式,由微软和 Facebook 共同开发。通过支持 ONNX,SMILE-Serve 可以执行来自几乎所有框架的模型,包括 PyTorch、TensorFlow、Keras 和 scikit-learn(通过 sklearn-onnx)。这意味着一个 Java 团队可以使用 PyTorch 在 Python 中训练模型,将其导出为 ONNX 格式,然后在 SMILE-Serve 上部署,而无需在生产环境中编写一行 Python 代码。

关键参与者与案例研究

SMILE-Serve 的开发由 Haifeng Li 团队领导,该团队是 SMILE(统计机器学习与智能引擎)库的原始创建者——这是 Java 社区中最全面的机器学习库之一。SMILE 本身在 Java 社区中一直是一个小众但备受尊重的工具,提供了超过 200 种机器学习算法的实现。将 SMILE-Serve 构建在 Quarkus 上的决定,反映了与 Red Hat 生态系统的战略合作,后者一直在积极推动 Quarkus 成为云原生 Java 的标准。

案例研究:金融服务公司
一家拥有 200 人 Java 后端团队的中型金融服务公司,正在评估用于欺诈检测系统的推理服务器。其现有基础设施运行在 Spring Boot 和 Kubernetes 上。他们有两个选择:(1)在其 Java 服务旁边部署一个基于 Python 的推理服务器(FastAPI + ONNX Runtime),这需要跨语言调试和额外的 DevOps 复杂性;或者(2)使用 SMILE-Serve。该公司选择了 SMILE-Serve,并报告部署时间减少了 60%(从 3 周缩短至 1 周),基础设施成本降低了 35%(由于内存使用减少),并且能够在不做修改的情况下重用其现有的监控和日志管道。

竞争格局:推理服务器比较

更多来自 Hacker News

AI教AI:递归式智能体课程开启教育新纪元《智能体系统》课程以开源项目形式发布,是一场关于AI成熟度的自我验证实验。一个基于大型语言模型(LLM)、集成代码执行与记忆功能的AI编码智能体,独立完成了课程设计、代码生成与实时问答。这种递归式教学循环意味着,课程能够根据学生反馈调整讲解Anthropic的安全圣战:AI出口管制背后的 Trojan Horse?多年来,Anthropic一直将自己定位为AI行业的道德良知,不断警告存在性风险并要求严苛监管。然而,随着美国政府收紧对先进AI硬件和模型权重的出口管制,越来越多的批评者指出,Anthropic幕后的游说活动是关键的推动力量。AINews通Agent-trace:为AI生成代码颁发可验证的“出生证明”AI编程助手的崛起极大地加速了软件开发,但也引入了一个关键盲区:生成过程仍是一个黑箱。开发者无法审计AI如何得出某段特定代码,导致难以对漏洞、安全缺陷或许可违规追责。Agent-trace 直接填补了这一空白,它定义了一套标准化格式,捕捉A查看来源专题页Hacker News 已收录 5008 篇文章

时间归档

May 20263028 篇已发布文章

延伸阅读

Canonical Ubuntu Core 26 'AI Box' 模式:重写边缘推理与数据主权规则Canonical 发布 Ubuntu Core 26,其突破性的 'AI Box' 模式可将任何兼容设备转变为专用本地 AI 推理设备。这一举措标志着从通用 Linux 向专用边缘 AI 硬件的战略转型,直接瞄准企业对数据主权和低延迟处理Token-Warden:开源成本守护神,重塑企业AI经济账Token-Warden,一款开源成本控制工具,正彻底改变企业管理AI Token消耗的方式。通过设定预算、为低风险任务切换更便宜的模型、以及拦截异常调用,它为AI系统构建了一道财务防火墙,将失控的成本转化为可预测的支出。AI代理的价值黑洞:ROI衡量缺失如何威胁万亿美元承诺AI代理的爆发式增长正在制造一个危险的盲区:行业缺乏衡量其实际经济价值的标准化框架。没有可靠的ROI指标,企业可能部署了高效但商业无效的代理,面临“代理通胀”泡沫——仪表盘数据亮眼,利润却停滞不前。AI Deployment Crisis: Prayer vs Engineering – Trust Gap Threatens Enterprise AdoptionA candid industry discussion exposes a widening trust gap between executives and engineering teams over AI deployment. T

常见问题

这次模型发布“SMILE-Serve Unifies ML and LLM Inference on JVM, Challenging Python Dominance”的核心内容是什么?

AINews has learned that SMILE-Serve, a new inference server built on the Quarkus framework, has officially launched, marking the first time a single JVM-based server can handle cla…

从“SMILE-Serve vs Triton Inference Server comparison for enterprise Java teams”看,这个模型发布为什么重要?

SMILE-Serve is not merely a wrapper around existing inference engines; it is a re-architected inference server designed from the ground up for the JVM ecosystem. The core architectural decision is the use of Quarkus as t…

围绕“How to deploy Llama 3 on JVM using SMILE-Serve and Quarkus”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。