AI智能体仅花916美元构建操作系统:软件经济学被彻底颠覆

Hacker News May 2026
来源:Hacker NewsAI agentagent orchestration归档:May 2026
谷歌的一个AI智能体,仅花费916美元的计算和API成本,就构建了一个功能完整的操作系统,直接挑战了传统操作系统开发动辄数千万美元、耗时数年的范式。这一实验标志着从AI辅助编程到自主系统级工程的巨大转变。

谷歌一项突破性实验在软件行业引发震动:一个AI智能体在几乎无人监督的情况下,自主构建了一个可运行的操作系统,总成本仅为916美元。这并非玩具项目或精简版内核——该系统据称包含了进程调度、内存管理、基础文件系统和设备驱动等核心操作系统组件,通过一个多智能体编排框架组装而成。这些智能体各自专攻内核模块、网络或用户界面等子系统,通过规划任务、编写代码、运行测试并在失败中迭代,无需人类干预即可协同工作。总成本覆盖了大型语言模型推理所需的云计算资源以及外部工具的API调用费用,但不包括底层基础设施的固定成本。这一成果意味着软件开发的成本结构正在发生根本性变化:从人力密集型转向算力密集型,从数年周期压缩至数天,从数百万美元降至不足千美元。

技术深度解析

谷歌这项实验的细节源自内部研究论文和泄露的技术报告,其核心是一个模仿人类工程团队的多智能体架构。关键创新并非单一的巨型模型,而是一个由专业智能体组成的协调集群,每个智能体都以大型语言模型(很可能是Gemini的变体或经过微调的PaLM 2)作为推理引擎。

架构拆解:
- 编排智能体(Orchestrator Agent): 该智能体接收高层目标(“构建一个最小但功能完整的操作系统”),并将其分解为子任务:内核设计、内存管理、进程调度器、文件系统、设备驱动和基础Shell。它将任务分配给专业智能体,并管理智能体间的依赖关系。
- 专业智能体(Specialist Agents): 每个智能体被赋予一个角色(例如“内核架构师”),并配备包含相关文档、现有开源代码片段(例如来自Linux或MINIX)以及一组工具(编译器、调试器、测试运行器)的上下文窗口。智能体编写代码、编译、运行单元测试,并在失败时迭代。它们通过共享消息总线进行通信,传递函数签名、测试结果和集成点。
- 验证智能体(Verification Agent): 一个独立的智能体专门负责运行集成测试,检查死锁、内存泄漏和安全漏洞。它会标记问题并将其发回给专业智能体进行返工。
- 成本优化: 系统采用分层模型策略:对于简单的代码生成和调试,使用廉价、快速的模型(如Gemini Nano);对于复杂的架构决策和棘手的并发问题调试,则使用更昂贵、更强大的模型(Gemini Ultra)。这种动态路由将每Token的平均成本保持在较低水平。

相关开源仓库:
- AutoGPT(GitHub:约16.5万星):开创了自主智能体循环,但缺乏用于系统级项目的多智能体编排能力。
- MetaGPT(GitHub:约4.5万星):一个多智能体框架,为LLM分配角色(产品经理、架构师、工程师)。谷歌的方法是该概念的直接演进,应用于底层系统编程。
- SWE-agent(GitHub:约1.5万星):专注于使用LLM修复代码库中的GitHub问题。谷歌的实验将其扩展为从头构建整个系统。
- OSv(GitHub:约4000星):一个专为云环境设计的Unikernel。AI智能体很可能研究了OSv的架构,以获取极简设计的灵感。

性能数据:

| 指标 | 传统操作系统开发(Linux内核) | 谷歌AI智能体(原型) |
|---|---|---|
| 功能原型所需时间 | 2-3年(Linus Torvalds初始发布) | 约7天(估算) |
| 工程团队规模 | 100+工程师(初始) | 0工程师(直接人力) |
| 直接成本(人力+基础设施) | 500万-2000万美元(MVP估算) | 916美元(计算+API) |
| 代码行数(仅内核) | 约2000万行(Linux 6.0) | 约5万行(估算) |
| 可靠性(正常运行时间) | 99.999%(企业级) | 未知,可能低于90% |
| 安全漏洞 | 数百个(经多年修补) | 未知,可能很多 |

数据要点: AI智能体在原型的时间和直接成本上实现了戏剧性的缩减,但原型的可靠性和安全性比生产级操作系统差了几个数量级。916美元买来的是速度和可行性,而非企业级质量。

关键参与者与案例研究

虽然谷歌处于这项实验的中心,但更广泛的生态系统中的公司和研究人员正在向类似的能力汇聚。

Google DeepMind: 很可能是这项研究的发源地。DeepMind一直在通过AlphaCode(用于竞技编程)和Gemini的长上下文推理等系统,推动智能体AI的边界。这个操作系统实验是自然的延伸:将智能体编排应用于一个庞大的、多文件的软件项目。他们的策略是将软件构建商品化,使Google Cloud成为AI驱动开发的默认平台。

Anthropic: 他们的Claude模型,特别是Claude 3.5 Sonnet,展示了强大的编码能力,尤其在长上下文任务中。Anthropic的“Computer Use”功能允许Claude直接与桌面环境交互,暗示了一个智能体在虚拟机上构建和测试软件的未来。他们是智能体编码领域的直接竞争对手。

OpenAI: 凭借Codex和GPT-4o系列,OpenAI拥有最广泛使用的编码模型。然而,他们的智能体产品(如Assistants API)更侧重于单任务完成,而非多智能体编排。他们在系统级自动化竞赛中处于追赶状态。

Cognition Labs (Devin): Devin是该领域最知名的初创公司,声称是第一个AI软件工程师。Devin可以自主规划、编码、测试和部署软件。然而,Devin的重点一直是Web应用和小型项目。谷歌的操作系统实验表明,即使是底层系统编程,也正在被AI智能体所触及。

更多来自 Hacker News

无标题The era of unlimited AI coding for a flat fee is crumbling. A developer's experience with Claude Code—where a $200 month无标题The AI industry is undergoing a rapid and disruptive commoditization. For years, the narrative has been dominated by a r上下文窗口是虚假的预言:AI真正需要的是记忆架构从128K到1M token乃至更长的上下文窗口竞赛,已成为衡量AI能力的核心指标。然而,我们的调查发现了一个根本性缺陷:上下文窗口是静态缓冲区,迫使模型在每次交互中重新处理所有信息,导致二次方计算成本和“上下文污染”——无关细节淹没关键信查看来源专题页Hacker News 已收录 3832 篇文章

相关专题

AI agent142 篇相关文章agent orchestration41 篇相关文章

时间归档

May 20262512 篇已发布文章

延伸阅读

AI智能体指挥中心:数字同事如何掀起硬件革命一场静默的硬件革命正在AI先驱者的桌面上演。他们不再满足于聊天机器人,而是将整块显示器——通常是悬置的平视显示器——用作自主‘数字同事’的持久监控面板。从以人为中心到人机协同工作空间的转变,标志着自图形用户界面以来桌面计算领域最深刻的变革。乌克兰Diia应用部署Gemini AI代理,重新定义政府即对话式服务乌克兰在其国家级Diia应用中全面部署了由Google Gemini驱动的AI代理。公民现在只需通过语音对话,即可完成从退税到社会福利申领等复杂官僚流程。这标志着大型语言模型首次深度集成到国家级政府服务平台,堪称全球首创。AI代理的隐藏软肋:为何知识检索失败率高达40%一项对1192个真实AI代理对话的深度剖析揭示了一个惊人瓶颈:超过40%的任务失败并非源于推理错误,而是因为检索到了无关或过时信息。这一发现暴露了AI产品开发中的关键盲区——团队痴迷于模型能力,却忽视了支撑它们的搜索基础设施。Nyx Wave:用邮件对话挖掘专家知识的AI智能体Nyx Wave是一款通过自然邮件对话提取专家知识的AI智能体,彻底告别结构化数据库或面对面访谈的繁琐。它将最普及的专业工具——电子邮件——转化为知识捕获界面,有望让行业专家经验的保存变得人人可及。

常见问题

这次公司发布“AI Agent Builds an Operating System for $916: Software Economics Disrupted”主要讲了什么?

A groundbreaking experiment from Google has sent shockwaves through the software industry: an AI agent, operating with minimal human oversight, autonomously built a working operati…

从“Can AI agents build a secure operating system for production use?”看,这家公司的这次发布为什么值得关注?

The Google experiment, details of which emerged from internal research papers and leaked technical reports, relies on a multi-agent architecture that mirrors a human engineering team. The core innovation is not a single…

围绕“How does Google's multi-agent OS compare to Devin and GitHub Copilot?”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。