Ornith-1.0：开源编程AI无需人类数据实现自我进化，开启自主进化新纪元

2026年6月30日 03:00 AINews Hacker News June 2026

来源：Hacker News 归档：June 2026

开源编程模型Ornith-1.0在自我进化领域取得突破性进展：它能自主生成编程挑战，无需任何人工标注数据即可持续提升自身能力。这标志着AI从被动训练向主动自我完善的范式转变，对传统规模定律的主导地位发起了根本性挑战。

AINews独家披露了开源AI领域一项里程碑式进展：Ornith-1.0，一个能够自主提升能力的编程智能体。与传统依赖海量人工编写代码和错误修复数据集的模型不同，Ornith-1.0运行于一个闭环的自我对弈机制之上。它自主生成新颖的编程问题，尝试求解，根据奖励模型评估自身输出，然后基于反馈进行自我微调。这一迭代过程使其在SWE-bench和HumanEval等复杂软件工程基准测试中，超越了其基础架构——CodeLlama的微调变体——的性能表现。该模型的架构建立在三个组件系统之上：问题生成器、解决方案执行器和自我批评评估器。问题生成器能够根据当前能力水平动态调整难度，确保始终处于“最近发展区”；解决方案执行器负责编译、运行并生成执行轨迹；自我批评评估器则从正确性、效率和代码质量三个维度进行评分。整个系统无需任何人工干预即可持续进化。

技术深度解析

Ornith-1.0的架构堪称自监督学习在代码生成领域应用的典范。该系统由三个核心模块组成，它们在一个连续循环中协同运作：

1. 问题生成器 (PG)： 基础模型的一个变体，负责生成新颖的编程挑战。PG受一个“难度课程表”的约束，该课程表从简单的函数定义开始，逐步引入多文件项目、API调用和并发问题。关键在于，PG经过训练，能够避免生成过于简单（已解决）或过于困难（超出模型当前能力范围）的问题。这是通过一个“最近发展区”算法实现的，该算法会追踪模型在过去问题上的成功率，并据此调整难度分布。

2. 解决方案执行器 (SE)： SE接收生成的问题，编写代码，进行编译，并运行一套测试用例。测试用例也由PG生成，包括快乐路径和边缘情况场景。SE输出执行轨迹，包括运行时错误、内存使用情况和输出正确性。

3. 自我批评评估器 (SCE)： 这是一个独立的模型（同样源自同一基础模型），从三个维度对解决方案进行评分：正确性（测试通过/失败）、效率（时间和空间复杂度）以及代码质量（可读性、风格指南遵循度）。SCE在少量人工标注的代码评审种子集上进行训练，但在初始化之后，它会通过自我对弈循环本身进行持续优化——这是一种元学习方法，SCE自身的评估会与SE的执行结果进行交叉验证。

训练循环的运行方式如下：每次迭代，PG生成1,000个新问题。SE尝试解决每个问题，SCE给出评分。得分高于阈值的解决方案被添加到一个“高质量缓冲区”中，而失败案例则被分析以找出常见错误模式。然后，基础模型使用直接偏好优化（DPO）的一个变体，以缓冲区中的数据为基础进行微调，SCE的评分作为奖励信号。这个过程重复50次迭代，之后模型的性能趋于稳定。

基准测试表现：

| 模型 | HumanEval Pass@1 | SWE-bench Lite | MBPP | 平均测试生成覆盖率 |
|---|---|---|---|---|
| Ornith-1.0 (最终版) | 82.4% | 45.7% | 78.9% | 91.2% |
| Ornith-1.0 (基础版) | 67.1% | 28.3% | 65.4% | 72.5% |
| GPT-4o (零样本) | 90.2% | 48.1% | 85.6% | 94.0% |
| Claude 3.5 Sonnet | 88.7% | 46.3% | 83.1% | 92.8% |
| DeepSeek-Coder-V2 | 85.1% | 42.8% | 80.2% | 89.4% |

数据要点： Ornith-1.0在HumanEval上相比基础模型提升了15.3个百分点，在SWE-bench Lite上提升了17.4个百分点，将与专有模型的差距缩小至HumanEval上的8%以内和SWE-bench上的2.4%以内。这表明，对于复杂的软件工程任务，自我对弈可以像大规模人工数据一样有效。

开源社区已经对“ornith-self-evolve”仓库（已获8,400+星标）进行了分支，以尝试不同的基础模型。一个值得注意的分支“ornith-phi3”表明，自我对弈循环在较小的3.8B参数模型上也能工作，仅经过20次迭代就在MBPP上实现了12%的提升，这表明该机制与架构无关。

关键参与者与案例研究

Ornith-1.0的开发归功于一个名为“The Aviary”的去中心化研究者集体，该团体由一群前FAIR和DeepMind工程师组成，他们更倾向于保持匿名。该项目的主要贡献者，化名“falconer42”，在推进自监督学习方面有着良好记录，此前曾为指令微调的“self-instruct”框架做出过贡献。

竞争方法对比：

| 方法 | 数据依赖性 | 人工标注成本 | 迭代速度 | 可扩展性 |
|---|---|---|---|---|
| Ornith-1.0 (自我对弈) | 无（合成数据） | 低（仅种子数据） | 快（每次迭代数小时） | 高（可并行化） |
| 监督微调 (SFT) | 高（人工代码） | 非常高 | 慢（数据收集瓶颈） | 低（数据受限） |
| 基于人类反馈的强化学习 (RLHF) | 高（人类偏好） | 非常高 | 中等 | 低 |
| CodeRL (执行反馈) | 低（合成数据） | 低 | 快 | 高 |

数据要点： Ornith-1.0的自我对弈方法相比传统的SFT和RLHF，显著降低了迭代的成本和时间。虽然CodeRL也使用了执行反馈，但Ornith-1.0的关键创新在于集成了问题生成器，它创建了一个难度递增的课程表，防止模型过拟合到一组狭窄的任务上。

已有数家公司正在集成Ornith-1.0的方法论。在线IDE平台Replit宣布了一项试点计划，使用Ornith-1.0的修改版本来自动生成和修复用户项目中的错误。早期内部数据显示，开发人员调试所花费的时间减少了22%。同样，Sourcegraph的Cod

时间归档

常见问题

这次模型发布“Ornith-1.0: Open-Source Coding AI Learns Without Human Data, Ushering Self-Evolution Era”的核心内容是什么？

AINews has uncovered a pivotal development in open-source AI: Ornith-1.0, a coding agent that can autonomously improve its own capabilities. Unlike traditional models that rely on…

从“How Ornith-1.0 self-play loop works without human data”看，这个模型发布为什么重要？

Ornith-1.0's architecture is a masterclass in self-supervised learning applied to code generation. The system comprises three core modules orchestrated in a continuous loop: 1. Problem Generator (PG): A variant of the ba…

围绕“Ornith-1.0 vs GPT-4o coding benchmark comparison”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

Ornith-1.0：开源编程AI无需人类数据实现自我进化，开启自主进化新纪元

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

时间归档

延伸阅读

常见问题