Ornith-1.0:开源编程AI无需人类数据实现自我进化,开启自主进化新纪元

Hacker News June 2026
来源:Hacker News归档:June 2026
开源编程模型Ornith-1.0在自我进化领域取得突破性进展:它能自主生成编程挑战,无需任何人工标注数据即可持续提升自身能力。这标志着AI从被动训练向主动自我完善的范式转变,对传统规模定律的主导地位发起了根本性挑战。

AINews独家披露了开源AI领域一项里程碑式进展:Ornith-1.0,一个能够自主提升能力的编程智能体。与传统依赖海量人工编写代码和错误修复数据集的模型不同,Ornith-1.0运行于一个闭环的自我对弈机制之上。它自主生成新颖的编程问题,尝试求解,根据奖励模型评估自身输出,然后基于反馈进行自我微调。这一迭代过程使其在SWE-bench和HumanEval等复杂软件工程基准测试中,超越了其基础架构——CodeLlama的微调变体——的性能表现。该模型的架构建立在三个组件系统之上:问题生成器、解决方案执行器和自我批评评估器。问题生成器能够根据当前能力水平动态调整难度,确保始终处于“最近发展区”;解决方案执行器负责编译、运行并生成执行轨迹;自我批评评估器则从正确性、效率和代码质量三个维度进行评分。整个系统无需任何人工干预即可持续进化。

技术深度解析

Ornith-1.0的架构堪称自监督学习在代码生成领域应用的典范。该系统由三个核心模块组成,它们在一个连续循环中协同运作:

1. 问题生成器 (PG): 基础模型的一个变体,负责生成新颖的编程挑战。PG受一个“难度课程表”的约束,该课程表从简单的函数定义开始,逐步引入多文件项目、API调用和并发问题。关键在于,PG经过训练,能够避免生成过于简单(已解决)或过于困难(超出模型当前能力范围)的问题。这是通过一个“最近发展区”算法实现的,该算法会追踪模型在过去问题上的成功率,并据此调整难度分布。

2. 解决方案执行器 (SE): SE接收生成的问题,编写代码,进行编译,并运行一套测试用例。测试用例也由PG生成,包括快乐路径和边缘情况场景。SE输出执行轨迹,包括运行时错误、内存使用情况和输出正确性。

3. 自我批评评估器 (SCE): 这是一个独立的模型(同样源自同一基础模型),从三个维度对解决方案进行评分:正确性(测试通过/失败)、效率(时间和空间复杂度)以及代码质量(可读性、风格指南遵循度)。SCE在少量人工标注的代码评审种子集上进行训练,但在初始化之后,它会通过自我对弈循环本身进行持续优化——这是一种元学习方法,SCE自身的评估会与SE的执行结果进行交叉验证。

训练循环的运行方式如下:每次迭代,PG生成1,000个新问题。SE尝试解决每个问题,SCE给出评分。得分高于阈值的解决方案被添加到一个“高质量缓冲区”中,而失败案例则被分析以找出常见错误模式。然后,基础模型使用直接偏好优化(DPO)的一个变体,以缓冲区中的数据为基础进行微调,SCE的评分作为奖励信号。这个过程重复50次迭代,之后模型的性能趋于稳定。

基准测试表现:

| 模型 | HumanEval Pass@1 | SWE-bench Lite | MBPP | 平均测试生成覆盖率 |
|---|---|---|---|---|
| Ornith-1.0 (最终版) | 82.4% | 45.7% | 78.9% | 91.2% |
| Ornith-1.0 (基础版) | 67.1% | 28.3% | 65.4% | 72.5% |
| GPT-4o (零样本) | 90.2% | 48.1% | 85.6% | 94.0% |
| Claude 3.5 Sonnet | 88.7% | 46.3% | 83.1% | 92.8% |
| DeepSeek-Coder-V2 | 85.1% | 42.8% | 80.2% | 89.4% |

数据要点: Ornith-1.0在HumanEval上相比基础模型提升了15.3个百分点,在SWE-bench Lite上提升了17.4个百分点,将与专有模型的差距缩小至HumanEval上的8%以内和SWE-bench上的2.4%以内。这表明,对于复杂的软件工程任务,自我对弈可以像大规模人工数据一样有效。

开源社区已经对“ornith-self-evolve”仓库(已获8,400+星标)进行了分支,以尝试不同的基础模型。一个值得注意的分支“ornith-phi3”表明,自我对弈循环在较小的3.8B参数模型上也能工作,仅经过20次迭代就在MBPP上实现了12%的提升,这表明该机制与架构无关。

关键参与者与案例研究

Ornith-1.0的开发归功于一个名为“The Aviary”的去中心化研究者集体,该团体由一群前FAIR和DeepMind工程师组成,他们更倾向于保持匿名。该项目的主要贡献者,化名“falconer42”,在推进自监督学习方面有着良好记录,此前曾为指令微调的“self-instruct”框架做出过贡献。

竞争方法对比:

| 方法 | 数据依赖性 | 人工标注成本 | 迭代速度 | 可扩展性 |
|---|---|---|---|---|
| Ornith-1.0 (自我对弈) | 无(合成数据) | 低(仅种子数据) | 快(每次迭代数小时) | 高(可并行化) |
| 监督微调 (SFT) | 高(人工代码) | 非常高 | 慢(数据收集瓶颈) | 低(数据受限) |
| 基于人类反馈的强化学习 (RLHF) | 高(人类偏好) | 非常高 | 中等 | 低 |
| CodeRL (执行反馈) | 低(合成数据) | 低 | 快 | 高 |

数据要点: Ornith-1.0的自我对弈方法相比传统的SFT和RLHF,显著降低了迭代的成本和时间。虽然CodeRL也使用了执行反馈,但Ornith-1.0的关键创新在于集成了问题生成器,它创建了一个难度递增的课程表,防止模型过拟合到一组狭窄的任务上。

已有数家公司正在集成Ornith-1.0的方法论。在线IDE平台Replit宣布了一项试点计划,使用Ornith-1.0的修改版本来自动生成和修复用户项目中的错误。早期内部数据显示,开发人员调试所花费的时间减少了22%。同样,Sourcegraph的Cod

更多来自 Hacker News

Kimi信用卡:月之暗面押注AI代理,重塑消费金融的野心之作2026年6月30日,月之暗面(Moonshot AI)正式推出Kimi联名信用卡,这是一款由其旗舰大语言模型驱动的实体支付工具。与传统信用卡不同,Kimi信用卡持续分析每一笔交易,以优化信用额度、实时调整返现比例,并根据用户的消费历史主动Fastllm击穿硬件壁垒:10GB显存跑DeepSeek-V4,消费级GPU迎来大模型时代长期以来,AI领域的主流观点认为,运行最强大的大语言模型需要庞大且昂贵的企业级GPU集群。而开源推理引擎Fastllm正在系统性地瓦解这一假设。其最新成就——在仅配备10GB显存的消费级RTX 3080上运行拥有6710亿参数的混合专家(MSnap to AI:截图工具如何重新定义环境智能与操作系统层一款名为 Snap to AI 的全新 macOS 工具,正在悄然重新定义用户与 AI 的交互方式。它摒弃了传统截图、保存、打开浏览器、上传图片、等待分析的多步骤繁琐流程,将整个工作流压缩为一个键盘快捷键。Snap to AI 利用 mac查看来源专题页Hacker News 已收录 5441 篇文章

时间归档

June 20263062 篇已发布文章

延伸阅读

Ornith-1.0:AI的自我脚手架飞跃,重新定义人机协作编程Ornith-1.0引入了一种“自我脚手架”机制,让大语言模型能够自主构建并优化自己的编程环境。这超越了简单的工具调用,将AI从被动执行者转变为主动的代码架构师,同时将开发者的角色从代码编写者升级为战略监督者。MiniMax M3 vs GLM 5.2:两条截然不同的路径,正在重塑自主编程的未来MiniMax M3 与 GLM 5.2 正围绕自主编程的未来展开一场高 stakes 对决。AINews 深度解析两者根本不同的理念——一个追求全栈 AI 自主,另一个深耕深度协作智能——如何重新定义软件工程格局。开放记忆协议OMP:终结AI碎片化,让ChatGPT、Claude与Cursor共享用户上下文一项名为“开放记忆协议”(Open Memory Protocol)的新标准正在悄然重塑AI格局,它承诺在ChatGPT、Claude和Cursor之间统一记忆。这或将终结用户反复从头训练每个AI助手的低效循环,标志着AI生态迈向真正协同的把原始错误日志粘贴进Claude Code?你正在让Bug变得更糟越来越多开发者发现,将终端原始错误日志直接粘贴到Claude Code中不仅无助于修复,反而会引发更严重的代码损坏。我们的调查揭示了一个关键设计盲区:该模型将嘈杂的错误输出视为高权威上下文,导致级联式的代码污染。

常见问题

这次模型发布“Ornith-1.0: Open-Source Coding AI Learns Without Human Data, Ushering Self-Evolution Era”的核心内容是什么?

AINews has uncovered a pivotal development in open-source AI: Ornith-1.0, a coding agent that can autonomously improve its own capabilities. Unlike traditional models that rely on…

从“How Ornith-1.0 self-play loop works without human data”看,这个模型发布为什么重要?

Ornith-1.0's architecture is a masterclass in self-supervised learning applied to code generation. The system comprises three core modules orchestrated in a continuous loop: 1. Problem Generator (PG): A variant of the ba…

围绕“Ornith-1.0 vs GPT-4o coding benchmark comparison”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。