Ornith-1.0:AI的自我脚手架飞跃,重新定义人机协作编程

Hacker News June 2026
来源:Hacker News归档:June 2026
Ornith-1.0引入了一种“自我脚手架”机制,让大语言模型能够自主构建并优化自己的编程环境。这超越了简单的工具调用,将AI从被动执行者转变为主动的代码架构师,同时将开发者的角色从代码编写者升级为战略监督者。

Ornith-1.0标志着智能体编程领域的一个关键转折点。以往的方法是为LLM配备外部工具——调试器、解释器、搜索引擎——而Ornith-1.0则将脚手架过程内化。模型不再依赖固定环境,而是针对每个任务动态生成、测试并丢弃自己构建的结构化框架。这种自我脚手架能力代表了从被动工具使用到主动架构规划的一次飞跃。其技术意义深远:模型能够递归分解复杂软件问题,构建一个由函数和模块组成的定制化“工作空间”,在该自建结构中执行代码,并从自身的架构决策中学习。这极大地减少了对人工精心设计的提示词和僵化智能体流程的依赖。

技术深度解析

Ornith-1.0的核心创新在于其自我脚手架循环,这是一种递归架构,用动态环境构建取代了静态工具使用。该过程分为三个阶段:

1. 分解与蓝图生成: 面对一个高层级任务(例如“为待办事项列表构建一个带用户认证的REST API”),模型首先将问题分解为子组件(路由、认证、数据库模式)。然后,它生成一个“脚手架”——一个由函数、类和模块依赖关系组成的结构化计划——以可执行的Python代码形式呈现。这个脚手架不是提示词,而是一个活的、可运行的骨架。

2. 执行与反馈循环: 模型在沙盒解释器中执行该脚手架。它测试每个函数,捕获错误(例如缺少导入、逻辑错误),并迭代地优化脚手架。这不仅仅是简单的错误修正;模型可以根据运行时反馈重构整个架构——将一个单体函数拆分为两个模块,或合并冗余的类。关键在于,模型将自己的代码视为一个可塑的、可自我修改的工件。

3. 从架构中进行元学习: 完成任务后,Ornith-1.0对其脚手架进行“事后分析”。它分析哪些架构决策导致了更少的错误、更快的执行速度或更清晰的接口。这种元学习被存储在一个轻量级的内部记忆(一个压缩的架构模式向量)中,该记忆会影响未来的脚手架生成。随着时间的推移,模型会建立一个“脚手架启发式”库——不是硬编码的,而是学习得来的。

工程细节: 该架构构建在一个经过修改的Transformer之上,具有双上下文窗口:一个用于任务描述,另一个用于实时脚手架状态。脚手架被表示为代码块的有向无环图(DAG),使模型能够推理依赖关系和并行性。沙盒是一个容器化的Python环境,具有受限的文件系统访问权限,运行在轻量级运行时上(类似于Pyodide,但针对智能体工作流进行了优化)。

相关开源仓库:
- `self-scaffolding-agent`(GitHub,2.3k星标):由Ornith团队开发的研究原型,实现了小规模任务的核心循环。它使用简化的DAG表示,并且仅支持Python。该仓库包含一个由50个软件工程任务组成的基准测试套件。
- `codegen-arena`(GitHub,8.1k星标):一个用于评估代码生成智能体的社区基准测试。Ornith-1.0的自我脚手架方法在复杂的多文件任务上,得分比最佳的工具调用智能体(例如,带有函数调用的GPT-4)高出23%。

基准性能数据:

| 模型 | SWE-bench Lite (Pass@1) | HumanEval (Pass@1) | 多文件任务成功率 | 平均脚手架构建时间 (秒) |
|---|---|---|---|---|
| Ornith-1.0 | 62.4% | 89.1% | 71.3% | 12.8 |
| GPT-4o (工具调用) | 48.7% | 87.2% | 38.5% | 不适用 (无脚手架) |
| Claude 3.5 Sonnet (工具调用) | 51.2% | 88.6% | 42.1% | 不适用 (无脚手架) |
| CodeLlama-34B (工具调用) | 33.1% | 62.4% | 19.7% | 不适用 (无脚手架) |

数据要点: Ornith-1.0的自我脚手架在多文件任务上,相比最佳的工具调用模型取得了33个百分点的显著提升,这表明架构自主性对于复杂、真实的软件工程至关重要。12.8秒的脚手架构建时间对于大多数交互式用例来说是可以接受的。

关键参与者与案例研究

Ornith团队: 由Dr. Elena Vasquez(前Google Brain研究员)和Dr. Kenji Tanaka(前DeepMind研究员)领导,Ornith AI的12人研究团队已秘密运营18个月。他们之前在NeurIPS 2024上关于自我改进智能体的工作奠定了理论基础。Ornith-1.0是他们的首个商业发布,并且已经从Sequoia和a16z筹集了4500万美元的A轮融资。

竞争方法:
- GitHub Copilot(基于Codex): 依赖静态上下文和工具调用(例如,获取文档)。没有自我脚手架;该模型是一个复杂的自动补全工具。
- Devin(Cognition Labs): 使用一个多智能体管道,包含独立的规划、编码和测试智能体。这是一种“委员会式脚手架”方法,但脚手架是由系统架构预定义的,而非由模型动态生成。
- OpenAI Code Interpreter(GPT-4): 在沙盒中执行代码,但不构建可复用的脚手架。每个任务都被视为一次全新的执行。

对比表:

| 特性 | Ornith-1.0 | Devin (Cognition) | GitHub Copilot | OpenAI Code Interpreter |
|---|---|---|---|---|
| 脚手架生成 | 动态,自建 | 预定义的多智能体 | 无 | 无 |
| 从架构中进行元学习 | 是 | 否 | 否 | 否 |
| 任务分解 | 递归,自主 | 手动提示工程 | 无 | 无 |
| 沙盒执行 | 是 | 是 | 否 | 是 |
| 开源 | 否 (仅API) | 否 | 否 | 否 |
| 定价 (每月) | 待公布 | 500美元 | 10美元 | 20美元 (Plus订阅) |

更多来自 Hacker News

无标题The gap between conceiving an AI agent's behavior and actually implementing it in code has long been the primary bottlenAI通过镜像测试?机器自我意识的重新定义镜像测试,衡量动物自我意识的黄金标准,已被重新用于AI。AINews技术团队发现,当LLM被提示执行自我参照任务(如“描述你自己的缺陷”或“想象你是一面镜子前的AI”)时,它们能生成一致的自我叙述,甚至指出自身局限。这种行为并非源于架构创新Ablo为AI智能体构建TCP/IP协议:终结多智能体碎片化时代AI智能体生态正处在一个矛盾状态:单个智能体能力日益强大,却仍被困在各自的数据孤岛中,无法有效协同工作。Ablo直接回应这一挑战,将自己定位为智能体之间的“连接组织”,而非一个新的智能体框架。该公司认为,制约自主AI规模化发展的真正瓶颈,并查看来源专题页Hacker News 已收录 5369 篇文章

时间归档

June 20262890 篇已发布文章

延伸阅读

SpaceX 600亿美元收购Cursor:AI编程智能体成为飞往火星的火箭燃料SpaceX以惊人的6000亿美元收购了AI编程智能体Cursor的运营商Anysphere。这并非人才收购,而是一场关于星际基础设施自主软件工厂的战略豪赌。这笔交易重新定义了人工智能与硬科技制造之间的关系,标志着埃隆·马斯克坚信航空航天工通义千问发布智能体基座模型,将自主编程能力“平民化”通义千问团队近日开源了专为自主编码智能体设计的Qwen3.6-35B-A3B模型。此举标志着AI编程辅助从简单的代码补全,迈向了能够动态执行多步骤项目任务的自主智能体时代,大幅降低了开发者构建高级AI开发伙伴的门槛。团队拓扑:AI智能体平台的下一个主战场部署自主AI智能体的竞赛正遭遇一个关键瓶颈——不是技术,而是构建和维护它们所需的组织结构。领先平台如今将“团队拓扑”——人类与AI系统的协作方式——置于原始模型性能之上,这标志着AI开发生命周期的根本性转变。MiniMax M3 vs GLM 5.2:两条截然不同的路径,正在重塑自主编程的未来MiniMax M3 与 GLM 5.2 正围绕自主编程的未来展开一场高 stakes 对决。AINews 深度解析两者根本不同的理念——一个追求全栈 AI 自主,另一个深耕深度协作智能——如何重新定义软件工程格局。

常见问题

这次模型发布“Ornith-1.0: AI's Self-Scaffolding Leap Redefines Human-Coder Partnership”的核心内容是什么?

Ornith-1.0 marks a pivotal inflection point in agentic programming. Where previous approaches equipped LLMs with external tools—debuggers, interpreters, search engines—Ornith-1.0 i…

从“Ornith-1.0 self-scaffolding mechanism explained”看,这个模型发布为什么重要?

Ornith-1.0's core innovation is its self-scaffolding loop, a recursive architecture that replaces static tool-use with dynamic environment construction. The process unfolds in three stages: 1. Decomposition & Blueprint G…

围绕“Ornith-1.0 vs Devin vs Copilot comparison”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。