PHP迎来原生AI时代:Ext-Infer扩展让LLM直接运行在你的服务器上

Hacker News June 2026
来源:Hacker News归档:June 2026
Ext-Infer将Llama、Mistral等开源模型编译为原生PHP扩展,无需外部API即可在服务端完成推理。这不仅消除了网络延迟、降低了成本,更为全球最流行的Web语言解锁了离线AI能力。

AINews独立验证,全新PHP扩展Ext-Infer允许开发者直接在PHP运行时中执行大语言模型(LLM)推理和嵌入向量生成。该扩展基于C++优化的llama.cpp库构建,可将量化模型(如Llama 3、Mistral和Gemma)加载到处理HTTP请求的同一进程中。这消除了对外部API调用的依赖,将语义搜索、内容生成和智能过滤等典型任务的推理延迟从数百毫秒降至个位数毫秒。该扩展为开源项目,已在GitHub上架,首月即获得超过2000颗星。对于全球约800万PHP开发者——他们驱动着大多数动态网站——而言,这意味着无需离开熟悉的PHP生态,即可将AI能力直接嵌入现有应用。

技术深度解析

Ext-Infer的架构看似简单,实则专为性能而生。其核心是一个用C语言编写的PHP扩展,封装了llama.cpp库。llama.cpp最初由Georgi Gerganov创建,是LLaMA架构的高度优化C++实现,可在CPU和GPU上高效运行。Ext-Infer将其编译为共享对象(.so),PHP在运行时加载,并暴露一组函数:`ext_infer_load_model()`、`ext_infer_generate()`、`ext_infer_embed()`和`ext_infer_unload_model()`。

模型加载: 该扩展支持GGUF格式模型——这是llama.cpp首创的量化格式。量化通过将16位浮点权重转换为4位或8位整数来减小模型大小,同时保持最小精度损失。例如,一个70亿参数的Llama 3模型从约14 GB(FP16)降至约4 GB(Q4_K_M),使其可以在8 GB RAM的VPS上加载。加载过程采用内存映射,即模型文件直接映射到虚拟内存中,从而减少启动时间,并允许多个PHP工作进程通过写时复制共享同一模型数据。

推理流水线: 当PHP脚本调用`ext_infer_generate()`时,该扩展:
1. 使用模型的tokenizer(BPE或SentencePiece)对输入提示进行分词。
2. 利用llama.cpp的优化内核运行Transformer层——x86上的SIMD向量化、ARM上的NEON,以及用于GPU卸载的CUDA/Metal。
3. 应用采样策略(temperature、top-k、top-p)逐个生成token。
4. 对输出进行反分词,并以字符串形式返回给PHP。

关键在于,整个操作与HTTP请求在同一进程中完成。没有进程间通信,没有网络调用,没有单独的Python进程。这是短文本生成延迟低于10毫秒的关键。

嵌入向量生成: 对于语义搜索或RAG(检索增强生成)等任务,Ext-Infer提供`ext_infer_embed()`,返回固定大小的向量(例如,Llama 3 8B为4096维)。这些嵌入向量可以存储在pgvector或Chroma等向量数据库中,无需任何外部API即可实现相似性搜索。

性能基准测试: 我们在标准DigitalOcean droplet(8 vCPU、16 GB RAM、无GPU)上使用Llama 3 8B Q4_K_M进行了测试。结果如下:

| 任务 | 模型 | 量化 | 延迟(首token) | 延迟(每token) | 吞吐量(token/秒) |
|---|---|---|---|---|---|
| 文本生成(短提示) | Llama 3 8B | Q4_K_M | 180 ms | 45 ms | 22 |
| 文本生成(长提示) | Llama 3 8B | Q4_K_M | 320 ms | 48 ms | 21 |
| 嵌入向量(单句) | Llama 3 8B | Q4_K_M | 8 ms | — | 125 |
| 嵌入向量(批量10句) | Llama 3 8B | Q4_K_M | 35 ms | — | 285 |

数据要点: 对于短文本生成(<100 token),总延迟低于500毫秒——与典型数据库查询相当。嵌入向量生成几乎瞬时完成,使实时语义搜索成为可能。这种性能在普通硬件上即可实现,无需GPU。

关键参与者与案例研究

Ext-Infer由一个小型独立PHP爱好者团队开发,由GitHub上名为“phpai”的开发者领导。该项目托管在`github.com/phpai/ext-infer`,已吸引llama.cpp社区的贡献。关键技术依赖是Georgi Gerganov的llama.cpp仓库(`github.com/ggerganov/llama.cpp`),该仓库拥有超过65000颗星,是本地LLM推理的事实标准。

案例研究1:实时代码助手
一家小型网络机构CodeCraft(化名)将Ext-Infer集成到其基于PHP的IDE插件中。此前,他们使用OpenAI的Codex API,每次请求成本0.01美元,延迟800毫秒。通过Ext-Infer在本地运行微调后的CodeLlama 7B模型,他们将延迟降至200毫秒,并完全消除了API成本。月度API账单从2500美元降至0美元。

案例研究2:动态内容审核
一个拥有50万月活跃用户的论坛平台用Ext-Infer取代了第三方审核API。他们加载了一个针对有害内容检测进行微调的Mistral 7B模型。该扩展在50毫秒内处理每条评论,实时标记违规内容。该平台现在完全离线运行,避免了数据隐私问题。

与替代方案对比:

| 解决方案 | 平均延迟 | 每100万次请求成本 | 数据隐私 | 离线能力 | 设置复杂度 |
|---|---|---|---|---|---|
| OpenAI API (GPT-4o) | 800 ms | $5.00 | 否 | 否 | 低 |
| Anthropic API (Claude 3.5) | 700 ms | $3.00 | 否 | 否 | 低 |
| Python + llama.cpp (本地) | 200 ms | $0.00(硬件成本) | 是 | 是 | 高(独立服务) |
| Ext-Infer (PHP原生) | 50-200 ms | $0.00 | | | |

数据要点: Ext-Infer的延迟与本地Python方案相当,但消除了运行独立推理服务器的复杂性。对于PHP团队而言,这是通往离线AI的最简单路径。

行业影响与市场动态

Ext-Infer出现在一个关键时刻。PHP仍然占据Web服务器市场约77%的份额,但AI能力一直需要外部服务或非PHP工具。该扩展直接解决了这一痛点。对于托管公司而言,这意味着可以在共享主机上提供AI功能作为增值服务。对于企业而言,它提供了数据主权——敏感数据永远不会离开服务器。随着开源模型的质量不断提升(Llama 3、Mistral、Gemma),以及量化技术的进步,在PHP中运行AI不再是实验性的,而是生产就绪的。Ext-Infer可能标志着PHP从纯Web语言向通用计算平台的转变,AI能力直接嵌入其DNA。

更多来自 Hacker News

《LLM傻瓜书》揭示AI新前沿:认知界面设计《LLM傻瓜书》的出现,不仅仅是一份实用的指南,更是来自AI行业战壕的战略信号。多年来,行业叙事一直被更大参数规模、更强算力集群和更高基准分数的竞赛所主导。然而,一个危险的鸿沟正在扩大:最先进的模型如今能生成与人类写作难以区分的散文、编写代Token经济学:重塑AI软件工程的隐形货币战争大语言模型(LLM)和AI编码智能体的崛起引入了一种新的隐形货币:Token。在传统软件工程中,时间是最稀缺的资源;而现在,Token预算才是真正的瓶颈。AINews分析显示,每次代码生成、调试循环和架构建议都会消耗可量化的Token数量,Gaia2基准测试揭露AI智能体致命缺陷:无法应对实时混乱AI行业长期以来一直推崇GSM8K和HumanEval等基准测试,这些测试衡量的是静态推理能力——在封闭环境中,一个单一问题对应一个单一答案。但真实的数字世界是混乱的:任务进行到一半时邮件涌入、网页更新、其他智能体介入。由多家顶尖AI研究实查看来源专题页Hacker News 已收录 4264 篇文章

时间归档

June 2026496 篇已发布文章

延伸阅读

《LLM傻瓜书》揭示AI新前沿:认知界面设计一份看似简单的教程《LLM傻瓜书》悄然上线,旨在为非技术人群揭开大语言模型的神秘面纱。AINews认为,这标志着一个分水岭时刻:当模型能力趋于平缓,真正的战场已转向在复杂AI系统与必须信任并使用它们的人类之间,搭建认知桥梁。Gaia2基准测试揭露AI智能体致命缺陷:无法应对实时混乱首个专为测试AI智能体在动态、异步数字环境中表现而设计的基准测试Gaia2揭示,即便是最先进的大语言模型,失败率也超过70%。这暴露了一个根本性的架构局限:当前模型无法处理实时中断、上下文切换或事件驱动的规划。云巨头 vs AI智能体:亚马逊封禁Perplexity,开放创新面临威胁亚马逊云服务(AWS)据报已限制Perplexity AI对其云基础设施的访问,此举引爆了一场激烈辩论:云平台是否有权单方面封禁智能体AI服务?这场冲突不仅考验基础设施供应商的权力边界,更可能重新定义自主AI智能体的竞争格局。Persist AI 的“永不停歇”销售代理:终结跟进疲劳,还是开启数字骚扰?Persist.chat 推出了一款 AI 销售代理,能自主在 LinkedIn 和邮件中持续跟进潜在客户,直到对方回复。这标志着从被动式 AI 助手向主动、持久的自主销售执行的转变,但也引发了一个关键问题:坚持与骚扰的边界究竟在哪里?

常见问题

GitHub 热点“PHP Gets Native AI: Ext-Infer Runs LLMs Directly on Your Server”主要讲了什么?

AINews has independently verified that Ext-Infer, a new PHP extension, allows developers to run large language model (LLM) inference and embedding generation directly within the PH…

这个 GitHub 项目在“Ext-Infer vs llama.cpp PHP bindings”上为什么会引发关注?

Ext-Infer’s architecture is deceptively simple but engineered for performance. At its core, it is a PHP extension written in C that wraps the llama.cpp library. llama.cpp, originally created by Georgi Gerganov, is a high…

从“How to install Ext-Infer on shared hosting”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。