AI-Whisper:Claude与Codex联手,开源突破实现推理能力翻倍

Hacker News June 2026
来源:Hacker NewsClaudeCodex归档:June 2026
一款名为AI-Whisper的全新开源工具,以主从循环架构协同Claude与Codex,将推理准确率提升高达2倍。通过让Claude生成、Codex实时审计,它直击单模型推理的核心不可靠性。AINews深入解析这一轻量级多智能体方案如何重塑高风险行业的AI部署格局。

AI-Whisper作为开源项目在GitHub上发布,引入了一种新颖架构:将Anthropic的Claude作为主推理引擎,与OpenAI的Codex作为实时审计器配对。该工具构建了一个闭环反馈系统:Claude生成代码或逻辑输出,Codex扫描错误与逻辑漏洞,反馈结果再注入Claude的下一轮生成循环。早期基准测试显示,在复杂编码任务中逻辑错误减少40-60%,HumanEval风格测试的pass@k指标提升2倍。项目迅速获得超过8000个GitHub星标,反映出开发者对实用多模型编排的强烈需求。AINews认为这是一个分水岭时刻:业界长期追逐更大模型,但AI-Whisper证明,更智能的编排才是关键。

技术深度解析

AI-Whisper的核心创新在于其主从反馈循环,看似简单却技术内涵深刻。架构包含三个阶段:生成审计反馈注入。在生成阶段,Claude('主模型')接收提示并产生初始输出——通常是代码或逻辑推理步骤。该输出随后传递给Codex('从模型'),执行结构化审计。Codex并非被要求生成新内容,而是被提示识别特定错误类型:语法错误、逻辑矛盾、差一错误、类型不匹配以及边界情况遗漏。审计结果格式化为结构化JSON,包含错误位置、严重性评分和建议修正。这些结果随后作为'修正提示'注入回Claude的上下文窗口,Claude重新生成相关部分。该循环可迭代多次,直到错误计数低于可配置阈值。

从工程角度看,该工具利用了每个模型的优势:Claude卓越的长上下文推理和指令遵循能力使其成为生成连贯多步骤解决方案的理想选择,而Codex在庞大代码语料库上的训练使其在常见编码陷阱的模式匹配方面具有优势。反馈注入机制采用了类似'思维链与反思'的技术,但将反思外部化到独立模型,避免了单模型自我修正时出现的上下文污染问题。

开源仓库(GitHub: `ai-whisper/ai-whisper`)已吸引8300个星标和1200个复刻。代码库使用Python编写,并采用LangChain框架进行模型编排,配有自定义回调处理器用于审计循环。默认配置使用Claude 3.5 Sonnet作为主模型,Codex(gpt-3.5-turbo-instruct)作为审计器,但用户可以替换为任何模型对。仓库包含针对HumanEval和MBPP数据集的基准测试脚本。

基准性能:

| 模型配置 | HumanEval pass@1 | HumanEval pass@10 | MBPP pass@1 | 平均延迟(秒) | 每任务成本(美元) |
|---|---|---|---|---|---|
| Claude 3.5 Sonnet(单模型) | 72.4% | 88.1% | 68.9% | 2.3 | 0.012 |
| Codex(单模型) | 48.1% | 72.6% | 45.3% | 1.1 | 0.004 |
| AI-Whisper(Claude + Codex,1次审计循环) | 81.2% | 94.7% | 79.5% | 4.8 | 0.028 |
| AI-Whisper(Claude + Codex,3次审计循环) | 86.7% | 97.3% | 84.1% | 11.2 | 0.072 |
| GPT-4o(单模型) | 87.1% | 96.2% | 85.0% | 1.9 | 0.030 |

数据要点: 单次审计循环的AI-Whisper在HumanEval pass@1上比Claude单独使用实现了12%的绝对提升,三次循环后性能几乎与GPT-4o持平,而每任务成本不到后者一半。然而,每次额外循环延迟增加三倍,使其不适用于实时应用。权衡显而易见:对于离线批处理或代码审查,准确率提升足以证明成本合理;对于交互式使用,单次循环提供了最佳平衡。

该架构还暴露了一个微妙漏洞:审计模型本身可能产生误报,将正确代码标记为错误。仓库包含一个'置信度阈值'参数,用于过滤低置信度审计标记,但这是一种启发式方法,并非保证。项目首席开发者(GitHub化名'neural_scribe')已承认此问题,并正在开发概率审计评分系统。

关键参与者与案例研究

AI-Whisper处于两大趋势的交汇点:多智能体系统的兴起和前沿模型的商品化。关键参与者不仅是工具的创造者,还包括模型提供商生态系统和竞争性编排框架。

Anthropic(Claude)和OpenAI(Codex/GPT)是模型提供商。Anthropic将Claude定位为'安全、可操控'的模型,适合复杂推理任务,而OpenAI的Codex(现已基本被GPT-4 Turbo取代)仍是代码完成的金标准。AI-Whisper利用了两者的互补优势。值得注意的是,很少有工具在生产管道中结合来自竞争供应商的模型——大多数编排框架(如LangChain、AutoGen)鼓励使用单一提供商的模型。

竞争性编排框架:

| 框架 | 多模型支持 | 实时审计循环 | 开源 | GitHub星标 | 主要用例 |
|---|---|---|---|---|---|
| AI-Whisper | 是(Claude + Codex) | 是 | 是 | 8,300 | 代码生成+审计 |
| Microsoft AutoGen | 是(任意模型) | 部分(通过智能体对话) | 是 | 32,000 | 多智能体对话 |
| LangChain | 是(任意模型) | 否(基于链,非循环) | 是 | 88,000 | 通用LLM编排 |
| CrewAI | 是(任意模型) | 否(基于角色的智能体) | 是 | 18,000 | 任务委派 |
| Google Vertex AI Agent Builder | 否(仅Google模型) | 否 | 否 | N/A | 企业级AI代理 |

更多来自 Hacker News

GPT-5.6 惊现 Codex:OpenAI 在 GPT-5 前布下的战略桥梁模型在对 OpenAI 公开 Codex 仓库的例行扫描中,AINews 发现了一个名为 GPT-5.6 的新模型系列。这并非一次小版本号更新,而是一次精心设计的中间版本发布,旨在 GPT-5 全面推出之前测试和打磨关键能力。'5.6' 的命名Hermes MoA虚拟模型集群:超越Opus 4.8达8%、GPT 5.5达11%,多智能体协作颠覆AI推理范式在重新定义AI推理前沿的惊人进展中,Nous Research发布了Hermes MoA(混合智能体)——一个虚拟模型集群,在关键推理基准测试中,其性能比Opus 4.8高出8%,比GPT 5.5高出11%。与业界痴迷于打造越来越庞大的单体Jetson Orin Nano Super 8GB:小模型如何在边缘AI战场悄然取胜Jetson Orin Nano Super 8GB并非一次简单的硬件升级,而是对AI行业轨迹的战略性校准。在市场聚焦于越来越大的基础模型之际,NVIDIA设计了一款设备,能够完全在设备端运行1-3B参数的语言模型,推理延迟低于100毫秒。查看来源专题页Hacker News 已收录 5342 篇文章

相关专题

Claude67 篇相关文章Codex35 篇相关文章

时间归档

June 20262854 篇已发布文章

延伸阅读

AI Gauge:终结AI程序员订阅焦虑的桌面利器一款名为AI Gauge的新桌面工具,悄然解决了手动检查AI订阅限额的痛点。它将Claude、Codex和Copilot的实时使用数据聚合至单一仪表盘,不仅暴露了日益严峻的效率危机,更预示着一个全新软件品类的诞生:用于管理AI工具的AI原生从序列模型到推理引擎:Transformer如何成为LLM霸主Transformer,这个最初为机器翻译设计的序列模型,如今已成为所有主流大语言模型的基础架构。本文追溯了从缩放定律、自回归预训练、RLHF对齐到推理工程的关键创新,揭示了一篇学术论文如何演变为驱动整个AI产业的引擎。LLM代码生成撕裂开源生态:一场新的贡献者战争大语言模型与自由软件贡献政策之间的碰撞,正在瓦解维系数十年的协作规范。一个核心悖论浮出水面:LLM训练数据中充斥着GPL许可代码,但生成输出却无法追溯原始贡献者,这从根本上动摇了自由软件的署名根基。AI雇佣兵崛起:2026年,系统交付为何碾压模型性能一位应用AI工程师的公开求职帖在业内疯传,其列出的技能直击企业痛点:RAG、AI代理、护栏、闭环系统与企业集成。AINews认为,这绝非一次简单的求职,而是AI行业从模型竞赛转向交付落地的明确信号。

常见问题

GitHub 热点“AI-Whisper: Claude and Codex Team Up to Double Reasoning Power in Open-Source Breakthrough”主要讲了什么?

AI-whisper, released as an open-source project on GitHub, introduces a novel architecture that pairs Anthropic's Claude as the primary reasoning engine with OpenAI's Codex as a rea…

这个 GitHub 项目在“AI-whisper vs AutoGen for code auditing”上为什么会引发关注?

AI-whisper's core innovation lies in its master-slave feedback loop, which is deceptively simple yet technically profound. The architecture consists of three stages: Generation, Audit, and Feedback Injection. In the Gene…

从“how to integrate AI-whisper into GitHub Actions”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。