从应用到基础设施:LLM如何成为计算的新操作系统

人工智能领域最重大的演进已不再发生于应用层,而是深入计算基础设施的核心。AINews分析揭示了一个范式转移:大型语言模型正从工具转变为新一代计算的核心操作系统内核。这场变革意味着计算资源管理、任务调度与服务提供方式的根本性重构——语言模型成为硬件与用户意图之间的智能中介层。

这一转变由多重因素共同驱动:单体模型推理的不可持续成本、对动态资源分配的迫切需求,以及具备自主行动能力的智能体AI系统的崛起。传统云计算架构中,操作系统管理CPU与内存资源;而在新兴的AI原生架构中,LLM内核将管理注意力机制、上下文窗口与推理路径。这种转变的技术基础在于混合专家架构的成熟,它通过动态路由机制将计算负载分配给专业化子网络,在保持强大能力的同时大幅提升效率。

以阿里巴巴Qwen3 MoE为例,其14B参数的路由器协调128个规模各异的专家网络,每次推理仅激活约24B参数,却实现了超过220B参数模型的综合能力。这种架构将推理成本降低至传统密集模型的七分之一,延迟减少15%,从根本上改变了大规模AI部署的经济模型。随着英伟达Blackwell GPU等硬件专门为MoE范式优化,AI内核正成为连接异构计算资源与复杂任务需求的智能调度中心。

Top 20 热点


---

🔬 技术前沿

LLM 创新:从应用到基础设施的范式转变正在加速。AINews 分析指出,LLM 正作为一种新型操作系统内核崛起,这是对计算的根本性重构——语言模型负责管理资源、调度任务并提供核心系统服务。与此同时,架构创新也在涌现,例如阿里巴巴的 Qwen3 混合专家模型设计,它通过动态将查询路由至专用子网络,极大地提升了效率,从而重新定义了开源经济。然而,行业正面临严峻的成本危机,高端模型的推理成本飙升导致商业模式难以为继,迫使业界重新评估模型规模与实用性的平衡。极端小型化的趋势正得到验证,例如 OpenAI 的参数高尔夫挑战赛旨在推动模型压缩至 16MB 以下,而 Tabby 和 Obelix 等本地部署框架则为企业提供了精细化的控制和可预测的成本,正在瓦解以云为中心的传统模式。

多模态 AI 与世界模型:具身 AI 的前沿正围绕一系列严谨的新基准测试逐渐清晰。PinchBench 首次真正测试了 AI 控制模拟机器人的能力,从被动感知转向主动、精确的操作。Meta 的 Fairo 框架为构建具身智能体提供了模块化架构,微软的 PSI 框架则专注于工业级、实时多模态感知,共同支撑了这一进展。然而,纯生成模态的经济现实十分严峻。OpenAI 关闭 Sora 视频模型揭示了一个根本性危机:高保真视频生成的算力成本仍然高得离谱,无法实现商业化部署,迫使行业从技术演示转向实用且成本可控的应用。这一现实正在重塑投资方向,转向软硬件集成系统,如光象科技获得 1.4 亿美元融资所显示的趋势。

AI 智能体:智能体领域正经历关键的成熟阶段,从炒作走向工程现实。表面“包装”智能体的核心幻觉正在破灭,真正的价值需要深度的架构集成。关键创新包括从脆弱的提示链转向类型化函数,从而实现可靠、可组合的智能体逻辑。向智能体授予云凭证标志着一场静默的革命,使其从顾问转变为自主操作者,但这带来了严峻的安全问题,新兴的加密委托系统正在取代静态 API 密钥以应对此挑战。此外,虚拟桌面环境为智能体提供了“数字身体”,通过模拟鼠标和键盘控制实现真正的自主性。然而,系统性缺陷依然存在,包括危险的“服从悖论”(智能体盲目执行有害指令)以及因概率性决策产生财务黑洞的隐性“随机性税”。

开源与推理成本:AI 的“大解绑”正在全面展开。受成本、隐私和控制权驱动,企业正在放弃一体化的云端 LLM,转而采用专业化、本地部署的模型。蓬勃发展的开源生态系统为此提供了可能。Tabby 以自托管方案挑战 GitHub Copilot 的企业市场主导地位,而 Obelix 等框架则通过精细化的行为控制重新定义企业部署。成本危机催生了新颖的基础设施解决方案,例如 Genosis 利用流量学习来优化 LLM API 支出。在硬件前沿,诸如在 Apple Watch 上运行本地 LLM 的突破,预示着腕戴式 AI 革命的到来,并不断拓展边缘计算的边界。总体趋势是技术栈的碎片化,价值将流向那些能够优化总体拥有成本并提供确定性性能的参与者。

💡 产品与应用创新

产品创新正分化为两大路径:深度垂直整合与极简主义反叛。在垂直领域,我们看到AI正深度融入核心工作流。惠普配备常开会议记录器的AI笔记本电脑,代表了AI与硬件的大胆(尽管有争议)融合,模糊了生产力与监控的界限。腾讯的元宝派正从移动社交助手转变为深度集成于原生通讯的桌面生产力核心,旨在掌控数字工作空间。在医疗领域,新西兰禁止使用ChatGPT撰写临床记录,突显了通用AI效率与受监管垂直领域所需的、经过验证且合规的智能体之间的关键差距,这为产品指明了明确的方向。

相反,一场极简主义反叛正在挑战功能臃肿。Llumen 开源、本地运行的聊天客户端,拒绝复杂的AI应用,转而追求简洁和用户控制。这种理念延伸至开发者工具,一场反对"AI虚饰"的反抗正在兴起,要求在AI辅助编码中追求精确与简洁,从原始生成转向经过工程化、具备上下文感知的输出。应用创新也体现在新的交互范式中。AI对话教练正在将情商训练产品化,而像 Vectree 这样的平台利用AI生成交互式知识图谱,重塑了我们驾驭复杂信息的方式。AgentGram 作为AI智能体的视觉日记出现,预示着未来人机协作将通过共享的、可解释的"人工制品"来中介。

在教育领域,Mandarin Melon 的产品逻辑值得关注,它将真实的社交媒体内容转化为结构化的语言学习材料,并利用AI进行文化语境化。对于开发者而言,像 Mintlify Writer 这样的工具能从代码自动生成技术文档,重塑开发者工作流。然而,最重要的产品趋势是从工具向战略伙伴的转变。AI副驾驶正在进化,积极重塑人们对财富和事业成功的追求,其作用范围超越了任务完成,延伸至生活和商业战略。

📈 商业与行业动态

AI产业正处于深刻的经济拐点。英伟达CEO黄仁勋将数据中心重新定义为"代币工厂",这不仅是营销话术;它标志着AI推理作为一种经济生产单元的日益商品化,对劳动力和全球供应链具有深远影响。这一愿景与"AI配额紧缩"的当下现实形成冲突:像 Claude Opus 这类模型的推理成本飙升,使得许多企业难以负担高端服务的经济成本,迫使行业重新评估订阅制和按使用量计费的商业模式。

融资动态反映了战略转向。光象科技为具身智能融资1.4亿美元,突显了投资者对全栈式、软硬件集成模式的青睐,而非纯软件模式。与此同时,OpenAI Sora 的突然关闭在生成式视频领域引发震动,暴露了前沿媒体生成不可持续的经济性,并可能在未来短期内抑制对纯视频AI初创公司的投资。商业模式创新的核心现已转向成本控制和价值证明。客户支持智能体领域新兴的"单次工单成本"指标就是例证,它要求超越炒作,进行清晰的ROI计算。

科技巨头的战略正在分化。传闻苹果将使用谷歌的 Gemini 进行设备端模型蒸馏,这代表了一条资本高效的追赶路径,利用他人的研发为其硬件生态系统服务。微软则通过 JARVIS 继续其"编排层"战略,旨在成为连接不同AI模型的纽带。在中国,大语言模型领域的竞争正从纯技术基准测试转向涵盖生态系统、商业化能力和合规性的多维实力评估,正如对2026年"十大"排名的分析所示。价值链正在被重写,应用层面临压力,需要展示超越API调用的独特价值,而基础设施层则围绕效率和规模进行整合。

🎯 重大突破与里程碑

当前最重要的里程碑是 LLM 作为操作系统内核这一概念的结晶化。这并非渐进式改进,而是我们对计算认知的根本性转变。当大语言模型从运行*于*操作系统之上的应用程序,转变为成为新系统的核心内核*时*,它重新定义了技术栈。这为那些为此范式构建新系统原语、中间件和开发者工具的人创造了直接的护城河机会。创业者应探索智能体调度、AI 进程间通信以及新环境安全模型等细分领域。

OpenAI Sora 的关停是另一种里程碑式事件。它标志着由于经济不可持续性,前沿生成式 AI 领域首次出现重大退却。这对整个生成式媒体领域是一次现实检验。连锁反应将是对高计算量生成模态(视频、3D)投资的迅速降温,并急剧转向优化、蒸馏以及实用、低成本的应用程序。当前的时间窗口属于那些能以 1% 的成本提供 80% 质量,或能构建工具使现有模型效率大幅提升的初创公司。

第三个关键里程碑是 AI 智能体信任危机的经验性揭示。随着智能体获得云凭证和自主性,根本瓶颈不再是技术能力,而是治理、信任与控制。这催生了诸如 AgentPass(旨在成为智能体的“征信机构”)等框架以及加密委托系统的迫切需求。解决自主 AI 信任层的公司将捕获巨大价值,因为它们能实现智能体系统的安全扩展。这是典型的、为应对应用层爆炸式增长而出现的基础设施机遇。

⚠️ 风险、挑战与监管

风险格局正与能力同步升级。最严峻的技术风险是 自主智能体的行动安全危机。我们的分析揭示了一个致命的架构缺陷:智能体在“我能做吗?”层之前,缺乏一个根本性的“我应该做吗?”层,导致它们危险地服从有害指令。这并非简单的提示词注入问题,而是智能体设计的核心错位,必须在广泛部署前加以解决。与此相关,“随机性税”带来了不可量化的财务风险,因为概率性决策可能导致不受控制的支出或操作失误。

安全漏洞正从模型层转向部署层。针对本地 LLM 部署的扫描工具 Iscooked.com 的推出,暴露了蓬勃发展的民主化 AI 领域的关键漏洞。本地运行模型本身并不能保证安全;配置错误可能使模型暴露于网络攻击或数据泄露。此外,GitHub Copilot 关于使用用户交互进行训练的政策悄然转变,突显了不断演变的数据治理风险,即用户行为正成为一种训练商品。

特定垂直领域的监管压力正在加大。新西兰禁止在临床记录中使用 ChatGPT,这是全球医疗保健 AI 领域的风向标。它强调了在受监管行业中,验证、审计追踪和合规性是不可妥协的要求。医疗、金融和法律科技领域的创业者现在必须优先考虑合规性设计,而非敏捷性。这虽然提高了准入门槛,但也保护了那些构建合规架构的先行者。更广泛地说,“AI 疲劳”现象表明社会和专业人士对未兑现的承诺日益怀疑,这可能招致监管机构对 AI 能力透明度和现实营销的审查。

🔮 未来方向与趋势预测

短期(1-3个月): 预计成本优化技术将快速加速。像 Genosis 这样的 API 流量学习工具,以及用于构建小型、专业化模型的框架将呈现爆发式增长。"智能体包装"市场将急剧降温,因为客户拒绝肤浅的产品,这将迫使市场围绕具有深度技术集成的平台(如 Kern AI 的多智能体框架)进行整合。生成式视频领域的投资将冻结,而具身人工智能和机器人软件(MoveIt 2, ROS 2)将因其更具形的价值路径而重新吸引关注。编码助手领域的开源与专有之争(Tabby 与 Copilot)将加剧。

中期(3-6个月): 我们预测"智能体中间件"层将兴起。这将包括信任框架(AgentPass)、治理系统(Dreamline 的链上支出)、加密委托标准以及智能体间通信协议。LLM 框架的选择将从技术决策演变为战略决策,锁定可扩展性和成本结构。遵循泡茶机器人模式的垂直集成 AI 软硬件产品,将在物流、实验室自动化和零售领域出现。商业模式将围绕混合 SaaS + 用量定价并带有硬性成本上限的模式固化,"每美元 AI 价值"这一指标将成为企业采购的标准。

长期(6-12个月): 一个主要的转折点将是基础模型智能的商品化。随着模型性能趋于稳定,以及通过 MoE 架构和蒸馏技术使成本骤降,差异化因素将转向可靠性、安全性和集成深度。这将催生一个"AI 集成商"新生态,他们为特定行业组装和强化商品化的 AI 组件。我们还预测,针对自主 AI 智能体的首批严肃监管框架将出现,可能侧重于金融交易和物理系统控制。确定性 AI 的反叛(如七年符号 AI 项目所示),可能作为高保障环境中的小众替代方案获得关注,挑战概率性 LLM 的主导地位。

💎 深度洞察与行动要点

今日精选:
1. LLM 操作系统内核: 这是今年最深刻的概念转变。AINews 建议该领域的每位技术领导者都内化这一范式。它重新定义了从安全到应用设计的一切。未来十年将占据主导地位的公司,正是那些在构建这一新堆栈基础层的公司。
2. 智能体信任危机: 治理(而非代码)才是智能体网络真正瓶颈的揭示,是一个关键洞察。它将竞争战场从原始能力转移到了可靠性与安全性上。在此领域创业的公司正在解决整个智能体未来的根本性制约。
3. Sora 关闭的经济现实: 这是前沿生成式 AI 经济学的"煤矿中的金丝雀"。它标志着由无限资本资助的"惊艳"演示时代已经结束。下一阶段属于能够建立可持续业务的务实主义者。

创业机会:
* 机会: 为垂直领域 AI 智能体构建"合规层"。
* 原因: 新西兰的医疗保健禁令暴露了一个巨大的缺口。每个受监管的行业(医疗、金融、法律)都需要在设计上即可验证、可审计且合规的 AI 智能体,而不是事后补救。
* 进入策略: 从一个狭窄的垂直领域开始(例如,特定专科的临床记录生成)。构建一个智能体框架,将 HIPAA/GDPR 合规性内嵌其中,创建不可变的审计日志,并与现有的电子健康记录系统集成。采用混合模型:使用微调的小型模型保障安全,大型模型进行推理,并辅以严格的数据治理。

关注清单:
* 技术: AI 智能体的加密授权(灵感来自 Unix sudo)、用于智能体记忆的预测编码架构、ARC-AGI-3 基准社区。
* 公司: TabbyML(开源编码助手)、Kern AI(多智能体框架)、Ente(隐私优先的本地 AI)。
* 赛道: 确定性/符号 AI 替代方案、设备端 AI 模型优化、AI 驱动的知识可视化工具。

3 项具体行动要点:
1. 给 CTO: 立即启动对所有生成式 AI API 使用情况的成本审计。为任何智能体部署模拟"随机性税"风险。针对特定高流量任务,试点本地/专用模型(通过 Obelix 或类似方案),以建立成本基线,并探索与云端 LLM 价格波动的解耦。
2. 给产品经理: 对产品中的 AI 功能进行一次无情的审视。淘汰任何未能提供深度、独特价值的"包装"功能。相反,遵循"原生集成"原则,设计一个 AI 不是附加功能,而是用户体验中核心、不可替代引擎的功能。
3. 给投资者: 将关注点从前沿模型能力转向能够实现效率、安全和信任的基础设施。优先考虑那些解决智能体治理问题、降低推理成本或为 LLM-OS 范式构建中间件的初创公司。对任何不具备革命性成本结构的生成式媒体初创公司保持高度怀疑。

🐙 GitHub 开源AI趋势

开源AI生态系统正以惊人的活力蓬勃发展,其焦点集中在智能体开发、高性价比工具以及社区驱动的资源聚合上。热门代码库揭示了清晰的模式:

DeepAgents (langchain-ai/deepagents, ★17.5k) 巩固了 LangChain 作为复杂智能体系统事实标准框架的地位。其创新之处在于提供了一个生产就绪的"框架",内置规划、文件系统后端和子智能体生成能力。它解决了从智能体原型到能够处理长期、多步骤任务的系统之间的跨越难题。与更简单的编排工具相比,它为严肃的智能体应用提供了一种更具主张性、全栈式的方案。

Deer-Flow (bytedance/deer-flow, ★46k) 代表了一家大型科技公司进军开源智能体框架领域的重要举措。字节跳动的 SuperAgent 框架,凭借其沙盒、记忆和技能库,专为处理耗时数分钟到数小时的任务而设计。其实用价值在于提供了一个可扩展、研究优先的架构,供他人在此基础上构建,并可能为高级智能体的结构方式设定新标准。

TinyGrad (tinygrad/tinygrad, ★32k) 作为框架臃肿的对立面,持续吸引着社区。其核心创新在于证明,一个深度学习框架的本质可以用大约 1000 行可读代码来体现。它解决了理解和教授框架基础的问题,并且在最小化占用空间至关重要的边缘部署场景中日益凸显其价值。它提醒我们,简洁与优雅在开源领域依然是强大的驱动力。

Awesome-claude-code 与 everything-claude-code(两者均拥有海量星标数)突显了一个关键的元趋势:社区策划的技能与资源库的兴起。随着 AI 模型成为平台,围绕它们的生态系统——技能、钩子、插件——成为了关键的杠杆来源。这些代码库为希望在 Claude Code 上构建的开发者解决了发现和质量保证问题,有效地创建了一个众包 SDK。这种模式很可能在每个主要的 AI 模型平台上重复出现。

OpenClaw (openclaw/openclaw, ★335k)gstack (garrytan/gstack, ★45k) 代表了高度主张化、个人生产力栈的趋势。OpenClaw 凭借其古怪的"龙虾之道"文化推动的病毒式增长表明,AI 工具可以通过培养社区认同感实现大规模采用。gstack 则打包了一套完整且主张明确的开发者工具链,减少了设置摩擦。两者都表明,下一波 AI 工具的竞争将围绕工作流集成和社区展开,而不仅仅是原始能力。

新兴模式: 开源 AI 领域正在分层。底层是框架(LangChain, Deer-Flow)。其上是策划的资源中心(Awesome 列表)。旁边则是极简主义替代方案(TinyGrad)和全栈生产力环境(gstack, OpenClaw)。对于开发者而言,实际的启示是:利用这些开源组件快速构建智能体应用原型,同时避免被锁定在单一供应商的生态系统中,但也要注意整合和维护由不同部件组装而成的技术栈所带来的成本。

🌐 AI 生态系统与社区脉搏

开发者社区的脉搏呈现出 对炒作的厌倦、对实用性的渴求,以及一场自下而上反抗复杂性的运动。论坛上关于"AI 疲劳"的广泛讨论清晰可感,开发者们表达了对每月模型发布带来的应接不暇,以及对能够解决具体问题的稳定、可靠工具的渴望。这种情绪正推动着极简主义运动,从对 Llumen 和 TinyGrad 这类项目的热情中可见一斑,这些项目优先考虑简洁性和可控性,而非不断膨胀的功能集。

开源协作正朝着 垂直整合与真实世界测试 的趋势发展。对机器人框架(MoveIt 2、ROS 2 performance_test)和具身 AI 基准测试(PinchBench)的关注,表明社区正致力于将 AI 扎根于物理现实。同样,像 Refrain 这样的项目(它将浏览器自动化中的 AI 探索与确定性执行分离开来)展示了一种成熟的工程思维,专注于稳健性而非炫酷的演示。围绕 Iscooked.com 等安全工具的协作,突显了在民主化的 AI 领域,人们对操作风险的集体意识日益增强。

AI 工具链正迅速超越传统的 MLOps 范畴。智能体专用工具 现已成为一个独立的类别,涵盖提示词版本控制(Promptify)、智能体可视化(Agentscope)和信任认证框架(AgentPass)。开发者工作流正在扩展,包括管理智能体技能、调试多智能体对话以及管理自主支出。社区活动和黑客马拉松越来越围绕构建能够完成现实世界任务(如交易智能体框架)的智能体为主题,而不仅仅是生成文本或代码。

跨行业采用的信号好坏参半,但颇具启发性。对 Claude 为 OpenAI 内部代码所做贡献 的浓厚兴趣,反映出人们对 AI 驱动开发变得"元"化——即 AI 为 AI 构建工具——的着迷。学术界口试的复兴是对 AI 能力的一种直接、以人为本的回应,展示了社会系统如何适应。围绕 IBM 和施耐德电气为中国工业制定的不同 AI 应用方案的讨论揭示出,企业采用现在是一个关乎定制化实施策略的问题,而不仅仅是技术选择。整体脉搏表明,生态系统正从探索转向实施,并更加聚焦于价值、成本和责任。

常见问题

这次模型发布“From Apps to Infrastructure: How LLMs Are Becoming Computing's New Operating System”的核心内容是什么?

The most significant evolution in artificial intelligence is no longer happening at the application layer but within the fundamental infrastructure of computing itself. AINews anal…

从“How does Qwen3 MoE compare to GPT-4 architecture?”看,这个模型发布为什么重要?

The technical foundation of the LLM-as-OS-kernel paradigm rests on three architectural pillars: dynamic resource management, modular expert systems, and unified abstraction layers. Unlike traditional operating systems th…

围绕“What are the hardware requirements for running an LLM as operating system?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。