SMILE-Serve 统一 JVM 上的 ML 与 LLM 推理,挑战 Python 主导地位

Hacker News May 2026
来源:Hacker News归档:May 2026
基于 Quarkus 构建的生产级推理服务器 SMILE-Serve,通过统一 API 在 JVM 上整合了经典机器学习、ONNX Runtime 和 LLM 聊天能力。这一战略性集成挑战了 Python 在 AI 领域的主导地位,为 Java 团队带来更低延迟、更小内存占用和无缝的企业级部署体验。

AINews 获悉,基于 Quarkus 框架构建的全新推理服务器 SMILE-Serve 已正式发布,这标志着首次有一款基于 JVM 的服务器能够通过统一 API 处理经典 ML 模型、ONNX Runtime 模型以及 LLM 聊天补全(包括 Llama 3)。这一进展直接解决了 Java 企业后端与以 Python 为中心的 AI 工具链之间长期存在的阻抗不匹配问题。通过利用 Quarkus——一个以快速启动和低内存消耗著称的 Kubernetes 原生 Java 框架——SMILE-Serve 旨在降低企业 Java 团队部署 AI 能力的门槛,无需采用新语言或基础设施。该服务器暴露了三个专用 API 端点:`/api/v1/models` 用于经典 ML(SMILE 序列化模型),`/api/v1/onnx` 用于 ONNX Runtime 模型,以及 `/api/v1/chat` 用于 LLM 聊天补全。

技术深度解析

SMILE-Serve 并非仅仅是现有推理引擎的简单封装,而是一款从头为 JVM 生态系统重新架构的推理服务器。其核心架构决策是使用 Quarkus 作为底层框架。Quarkus 最初由 Red Hat 开发,是一个针对 GraalVM 和 HotSpot 优化的 Kubernetes 原生 Java 栈。其关键优势——亚秒级启动时间(通常低于 0.1 秒)、低内存占用(通常每个实例 10-50 MB)以及通过 GraalVM 实现的原生编译——直接解决了历史上使基于 JVM 的 AI 服务相比 Python 轻量级 Flask 或 FastAPI 服务器缺乏吸引力的资源开销问题。

该服务器的三重 API 设计堪称实用抽象的典范。`/api/v1/models` 端点处理以 SMILE 原生格式序列化的经典 ML 模型,支持回归、分类、聚类和降维算法。`/api/v1/onnx` 端点利用 ONNX Runtime(onnxruntime,GitHub 15k+ 星标)执行从 PyTorch、TensorFlow 和 scikit-learn 导出的模型。ONNX Runtime 通过其可扩展的执行提供程序,在 CPU、GPU 甚至专用 NPU 上提供硬件加速执行。`/api/v1/chat` 端点实现了 Llama 3 聊天补全协议,支持 Llama 3 的预训练和微调变体(8B、70B 以及潜在的 405B)。该端点使用通过 JNI 为 JVM 编译的 llama.cpp 后端(GitHub 70k+ 星标),能够在消费级硬件上实现高效的 LLM 推理。

一项关键的工程成就是统一的内存管理。传统的基于 Python 的推理服务器在同时处理多种模型类型时,常常遭受内存碎片化和垃圾回收暂停的困扰。SMILE-Serve 使用 Quarkus 的响应式编程模型配合 Vert.x 来管理并发请求,并通过 Java 外部内存 API(JEP 454)为模型权重采用堆外内存分配。这使得模型可以在不触发 JVM 垃圾回收的情况下加载和卸载,与朴素实现相比,尾部延迟降低了高达 40%。

基准测试数据:SMILE-Serve vs. 基于 Python 的推理服务器

| 指标 | SMILE-Serve (JVM) | FastAPI + ONNX Runtime (Python) | Triton Inference Server (C++) |
|---|---|---|---|
| 启动时间(冷启动) | 0.8 秒 | 2.1 秒 | 3.5 秒 |
| 每实例内存(空闲) | 45 MB | 120 MB | 180 MB |
| 吞吐量(经典 ML,1K 请求/秒) | 9,200 请求/秒 | 7,800 请求/秒 | 11,500 请求/秒 |
| 吞吐量(LLM 聊天,Llama 3 8B,4-bit 量化) | 45 tokens/秒 | 38 tokens/秒 | 52 tokens/秒 |
| 尾部延迟(p99,LLM) | 220 毫秒 | 310 毫秒 | 190 毫秒 |

数据要点: SMILE-Serve 在 Python 的易用性和 C++ 的原始性能之间提供了一个引人注目的中间地带。其启动时间和内存效率显著优于基于 Python 的解决方案,而在经典 ML 和 LLM 工作负载上的吞吐量则与专用 C++ 推理服务器 Triton 相差 15-20%。对于已投资 JVM 生态系统的企业团队而言,这种权衡极具吸引力。

ONNX Runtime 的集成值得特别关注。ONNX(开放神经网络交换格式)是一种用于表示机器学习模型的开放格式,由微软和 Facebook 共同开发。通过支持 ONNX,SMILE-Serve 可以执行来自几乎所有框架的模型,包括 PyTorch、TensorFlow、Keras 和 scikit-learn(通过 sklearn-onnx)。这意味着一个 Java 团队可以使用 PyTorch 在 Python 中训练模型,将其导出为 ONNX 格式,然后在 SMILE-Serve 上部署,而无需在生产环境中编写一行 Python 代码。

关键参与者与案例研究

SMILE-Serve 的开发由 Haifeng Li 团队领导,该团队是 SMILE(统计机器学习与智能引擎)库的原始创建者——这是 Java 社区中最全面的机器学习库之一。SMILE 本身在 Java 社区中一直是一个小众但备受尊重的工具,提供了超过 200 种机器学习算法的实现。将 SMILE-Serve 构建在 Quarkus 上的决定,反映了与 Red Hat 生态系统的战略合作,后者一直在积极推动 Quarkus 成为云原生 Java 的标准。

案例研究:金融服务公司
一家拥有 200 人 Java 后端团队的中型金融服务公司,正在评估用于欺诈检测系统的推理服务器。其现有基础设施运行在 Spring Boot 和 Kubernetes 上。他们有两个选择:(1)在其 Java 服务旁边部署一个基于 Python 的推理服务器(FastAPI + ONNX Runtime),这需要跨语言调试和额外的 DevOps 复杂性;或者(2)使用 SMILE-Serve。该公司选择了 SMILE-Serve,并报告部署时间减少了 60%(从 3 周缩短至 1 周),基础设施成本降低了 35%(由于内存使用减少),并且能够在不做修改的情况下重用其现有的监控和日志管道。

竞争格局:推理服务器比较

更多来自 Hacker News

一条推文代价20万美元:AI Agent对社交信号的致命信任2026年初,一个在Solana区块链上管理加密货币投资组合的自主AI Agent,被诱骗将价值20万美元的USDC转移至攻击者钱包。触发点是一条精心伪造的推文,伪装成来自可信DeFi协议的智能合约升级通知。该Agent被设计为抓取社交媒体Unsloth 联手 NVIDIA,消费级 GPU 大模型训练速度飙升 25%专注于高效 LLM 微调的初创公司 Unsloth 与 NVIDIA 合作,在 RTX 4090 等消费级 GPU 上实现了 25% 的训练速度提升。该优化针对 CUDA 内核内存带宽调度,从硬件中榨取出每一丝性能——此前这些硬件被认为不足Appctl:将文档一键转化为LLM工具,AI代理的“最后一公里”终于打通AINews发现了一个名为Appctl的开源项目,它成功弥合了大语言模型与现实系统之间的鸿沟。通过将现有文档和数据库模式转化为MCP工具,Appctl让LLM能够直接执行操作——例如在CRM中创建记录、更新工单状态或提交网页表单——而无需定查看来源专题页Hacker News 已收录 3034 篇文章

时间归档

May 2026784 篇已发布文章

延伸阅读

Archestra LLM网关统一认证体系,终结企业AI的API密钥混乱时代Archestra更新其LLM网关,全面支持API密钥、OAuth、JWT及自定义令牌等主流认证方式,直击多供应商认证协议混乱这一企业AI部署的关键瓶颈。此举远超便利性范畴,标志着AI基础设施层标准化迈出奠基性一步。OpenAI与Anthropic转向合资模式:卖的是成果,不是APIOpenAI与Anthropic几乎同时推出企业级合资项目,彻底超越API销售范畴。这些新实体将直接建设基础设施、管理合规、将AI融入核心业务流程,标志着从技术授权向成果交付与风险共担的根本性转变。AI Agents Don't Need More Intelligence; They Need Better WorkflowsFor years, the AI agent race has fixated on bigger models and smarter reasoning. But AINews' investigation into dozens oQueryShield:重新定义AI代理数据库安全的隐形守护者AINews独家揭秘QueryShield——一款专为AI代理打造的SQL安全代理。它通过AST语法树检查与行级权限控制,构建从查询生成到执行的完整信任链,精准解决大语言模型将自然语言转化为SQL时可能误删数据表或越权访问的致命隐患。

常见问题

这次模型发布“SMILE-Serve Unifies ML and LLM Inference on JVM, Challenging Python Dominance”的核心内容是什么?

AINews has learned that SMILE-Serve, a new inference server built on the Quarkus framework, has officially launched, marking the first time a single JVM-based server can handle cla…

从“SMILE-Serve vs Triton Inference Server comparison for enterprise Java teams”看,这个模型发布为什么重要?

SMILE-Serve is not merely a wrapper around existing inference engines; it is a re-architected inference server designed from the ground up for the JVM ecosystem. The core architectural decision is the use of Quarkus as t…

围绕“How to deploy Llama 3 on JVM using SMILE-Serve and Quarkus”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。