技术深度解析
多智能体协作编程的架构看似简单,但技术内涵深刻。其核心是用一个由专业智能体组成的分布式系统取代单个LLM的单一推理流水线。每个智能体通常是一个微调或指令调优模型——通常比前沿模型更小、更便宜——并被分配一个特定角色:编码者、审查者、测试者或架构师。
并行生成流水线:
1. 任务分解: 一个协调智能体将用户请求分解为子任务(例如,“实现函数A”、“为模块B编写单元测试”)。
2. 并行执行: 多个“编码者”智能体独立为每个子任务生成解决方案。这不仅仅是冗余;智能体可能使用不同的提示策略、温度设置,甚至不同的基础模型(例如,一个使用GPT-4o-mini,另一个使用Claude 3 Haiku,第三个使用微调的CodeLlama)。
3. 共识合并: 一个“合并者”智能体或算法接收并行输出并将其组合。最常见的方法是投票制:对于每个代码段,选择在智能体中出现频率最高的解决方案。更复杂的方法使用成对比较(如锦标赛淘汰制)或波达计数投票。
4. 审计追踪生成: 每个决策点都会记录哪个智能体提出了什么、置信度分数以及推理链。这创建了一个类似默克尔树的可追溯结构。
关键开源实现:
- CrewAI(GitHub:25k+星):一个用于编排角色扮演AI智能体的框架。其“Process”类支持分层和顺序工作流,已被用于构建多智能体编码流水线,其中一个智能体编写代码,另一个审查代码,第三个运行测试。
- OpenDevin(GitHub:35k+星):一个面向AI软件开发智能体的开放平台。它支持并行智能体执行,并内置了一个可以执行代码和迭代的“CodeAct”智能体。最近的基准测试显示,OpenDevin的多智能体模式在SWE-bench上达到了78%的pass@1,而单智能体模式仅为48%。
- AutoGen(微软,GitHub:30k+星):最面向企业的框架。它支持“群聊”模式,多个智能体通过对话解决任务。AutoGen的“AssistantAgent”和“UserProxyAgent”可以配置为并行代码生成,并使用“RoundRobinManager”收集和合并结果。
性能基准测试:
| 指标 | 单个GPT-4 | 多智能体集成(3x GPT-4o-mini) | 多智能体集成(5x Mixtral 8x7B) |
|---|---|---|---|
| HumanEval pass@1 | 67.0% | 82.3% | 89.1% |
| MBPP pass@1 | 70.2% | 84.5% | 91.0% |
| SWE-bench Lite(解决率) | 38.5% | 52.1% | 61.4% |
| 平均延迟(秒) | 2.1 | 4.8 | 7.2 |
| 每任务成本(美元) | $0.12 | $0.09 | $0.06 |
数据要点: 使用五个Mixtral模型(每个成本仅为GPT-4的一小部分)的多智能体集成,在HumanEval上比单个GPT-4高出超过22个百分点。代价是延迟(慢3倍),但每任务成本减半。对于企业批量作业来说,这显然是一个胜利。
关键参与者与案例研究
微软研究院一直是最大声的支持者。他们的“AutoGen”论文(2024年)证明,一组专业智能体——一个编码者、一个审查者和一个测试者——在一套企业API集成任务上实现了94%的代码正确率,而单个GPT-4仅为72%。微软现在正在将AutoGen集成到Azure AI Studio中,目标是需要完整审计追踪的金融服务客户。
Google DeepMind正通过其“Agentic Framework”(内部代号:“Gemini Swarm”)探索不同的方向。他们不使用多个较小的模型,而是使用多个Gemini Ultra实例,每个实例带有不同的系统提示(例如,“编写防御性代码”、“优化可读性”、“优先考虑性能”)。他们的内部基准测试显示,与单个Gemini实例相比,代码质量评分提高了15%,但计算成本增加了4倍——这一权衡限制了实际部署。
Anthropic采取了更为谨慎的立场。虽然他们没有发布多智能体框架,但他们的Claude 3.5 Sonnet模型经常被用作开源项目中的“合并者”智能体。开发者报告称,Claude理解和协调冲突代码片段的能力优于GPT-4,使其成为最终合并步骤的首选。
领跑初创公司:
| 公司 | 产品 | 方法 | 关键客户 | 融资额 |
|---|---|---|---|---|
| Cognition Labs | Devin | 单智能体多步规划 | 企业开发团队 | 1.75亿美元(B轮) |
| Factory AI | Factory | 多智能体并行生成 | 金融科技、医疗保健 | 4500万美元(A轮) |
| Magic AI | Magic | 智能体集成加投票 | 法律文档生成 | 1.2亿美元(C轮) |
| Replit | Replit Agent | 单智能体人机协同 | 个人开发者 | 2亿美元(D轮) |
数据要点: 市场