Devika:开源智能工程助手,或将重新定义AI编程伴侣

GitHub April 2026
⭐ 19504
来源:GitHub归档:April 2026
作为首个开源实现的智能软件工程师,Devika以社区驱动的方式直接对标闭源产品Devin。凭借近两万颗GitHub星标和模块化架构,它有望大幅降低自动化代码生成、调试与项目开发的门槛。

由stitionai团队开发的Devika,正以首个完全开源的智能软件工程师身份掀起波澜。作为对Cognition AI旗下仍处于封闭邀请制产品Devin的直接回应,Devika提供了一种透明、可本地部署的替代方案。其模块化架构整合了规划、编码、执行与调试能力,并支持多种大型语言模型后端,包括GPT-4、Claude以及Llama等开源模型。该项目迅速累积了近两万颗GitHub星标,彰显了社区的高度热情。然而,Devika仍处于早期阶段。尽管它在生成样板代码或修复孤立bug等简单、定义明确的任务上表现出色,但在处理复杂、多步骤的软件工程挑战时仍显吃力。

技术深度解析

Devika的架构是其最引人注目的特点。与单体式AI编程助手不同,Devika被设计为一个模块化系统,包含四个核心组件:规划器编码器执行器调试器。这种设计模仿了人类软件开发工作流,允许每个模块独立优化。

- 规划器: 该模块接收高层次用户请求(例如,“为待办事项应用创建一个REST API”),并将其分解为一系列可操作的子任务。它采用思维链提示策略,通常依赖GPT-4或Claude等强大的LLM后端来生成逐步计划。规划器的输出是一个结构化的命令列表或代码生成任务。
- 编码器: 针对每个子任务,编码器生成必要的代码。它可以配置为对不同任务使用不同的LLM,使开发者能够在成本与能力之间取得平衡。例如,开发者可能为简单样板代码使用更便宜、更快的模型,而为复杂逻辑使用更昂贵、能力更强的模型。编码器还能访问文件系统上下文,从而读取现有项目文件并保持一致性。
- 执行器: 该模块在沙盒环境中运行生成的代码。Devika支持多种执行环境,包括本地Shell、Docker容器,甚至远程服务器。执行器捕获标准输出、标准错误和退出码,并将其反馈回系统。
- 调试器: 最具创新性的模块。当执行器报告错误时,调试器会分析错误信息、产生错误的代码以及原始计划。然后,它尝试自主修复代码,通常是通过将错误上下文重新输入给编码器。这形成了一个反馈循环,能够处理简单bug而无需人工干预。

底层机制: Devika的代码库使用Python编写,并在GitHub上以MIT许可证发布。仓库(stitionai/devika)开发迅速,拥有超过100名贡献者。该项目利用了LangChain等流行库进行LLM编排,以及Docker进行沙盒化。一个显著特性是其对多种LLM后端的支持,包括OpenAI的API、Anthropic的API,以及通过Ollama或llama.cpp运行的本地模型。这种灵活性对于关注数据隐私或API成本的用户至关重要。

性能基准测试: 尽管针对智能编码的标准化基准测试仍处于萌芽阶段,但早期的社区测试提供了一些见解。我们从Devika的Discord和GitHub issues中收集了数据,以比较其在常见任务上的表现。

| 任务 | Devika (GPT-4) | Devika (Llama 3 70B) | Devin (据报告) | GitHub Copilot (聊天) |
|---|---|---|---|---|
| 生成一个Flask CRUD应用 | 85% 成功率(首次尝试) | 62% 成功率 | ~90% 成功率 | 不适用(仅辅助) |
| 修复Python语法错误 | 95% 成功率 | 78% 成功率 | ~98% 成功率 | 80% 成功率 |
| 实现二叉搜索树 | 70% 成功率 | 45% 成功率 | ~85% 成功率 | 60% 成功率 |
| 重构500行函数 | 40% 成功率 | 20% 成功率 | ~70% 成功率 | 35% 成功率 |

数据要点: Devika的性能高度依赖于底层LLM。使用GPT-4等顶级模型时,它在简单任务上接近Devin报告的成功率,但在复杂重构上明显落后。开源模型的表现令人鼓舞,但尚未达到复杂工作的生产就绪水平。

关键参与者与案例研究

Devika进入了一个拥挤的AI编程助手领域,但其开源、智能的特性使其脱颖而出。

- Cognition AI (Devin): 最初的灵感来源。Devin是一个专有、闭源系统,展示了令人印象深刻的能力,包括能够在Upwork等自由职业平台上完成整个软件项目。然而,其高昂的成本(据报道每月500美元)和封闭性限制了可及性。Devin的关键优势在于其针对软件工程任务的端到端训练,使其对开发生命周期拥有更整合的理解。
- GitHub Copilot: AI代码补全的市场领导者,现在拥有聊天界面和智能能力(Copilot Workspace)。Copilot深度集成到IDE中,擅长内联建议。然而,它并非为自主任务执行而设计;它是一个助手,而非智能体。其优势在于减少击键次数,而非管理整个项目。
- OpenAI Codex / GPT-4: 许多工具的底层引擎。虽然GPT-4可以生成代码,但它缺乏Devika提供的结构化规划、执行和调试循环。Devika本质上是用一个智能框架包装了强大的LLM。
- 其他开源智能体: 像AutoGPT和BabyAGI这样的项目开创了智能体概念,但它们是通用型的。Devika专为软件工程而设计,使其具备了早期项目所缺乏的专注度。另一个相关项目是普林斯顿大学的SWE-agent,它专注于

更多来自 GitHub

ChatGLM-6B:开源双语模型如何重塑中国AI生态的准入规则由智谱AI开发、以开源形式发布在zai-org/chatglm-6b仓库的ChatGLM-6B,标志着大语言模型在中文世界民主化进程中的重要里程碑。与许多以英语为先的模型不同,ChatGLM-6B从底层设计之初就是一套中英双语对话系统。其核ChatGLM-6B:6B参数模型如何在消费级GPU上开启中国AI的平民化时代ChatGLM-6B项目源自清华大学THUDM代码库的一个分支,代表着大语言模型向硬件预算有限的开发者和组织开放迈出的关键一步。凭借仅60亿的参数规模,它在智能客服、知识问答和教育辅助等任务上实现了可用性能,且经过INT4量化后,仅需一张消一颗星的分支:零更新克隆如何暴露开源AI的脆弱根基仓库uyoungii/fastchat是LM-SYS旗下FastChat框架的直接分支——FastChat是训练、部署和评估大语言模型(LLM)的广泛使用的开源框架。该分支仅有一颗星,且自初始分叉后无任何提交,本质上是一个静态快照。看似微不查看来源专题页GitHub 已收录 962 篇文章

时间归档

April 20262175 篇已发布文章

延伸阅读

ChatGLM-6B:开源双语模型如何重塑中国AI生态的准入规则智谱AI推出的ChatGLM-6B是一款开源、中英双语对话模型,虽仅60亿参数,却以独特Prefix-LM训练目标与32K超长上下文支持,在中文任务上展现出超越同体量模型的实力,成为大型闭源模型的有力替代方案。ChatGLM-6B:6B参数模型如何在消费级GPU上开启中国AI的平民化时代ChatGLM-6B,一个拥有60亿参数的开源中文对话模型,通过INT4量化技术成功在消费级GPU上运行,引发行业震动。AINews深入剖析其技术架构、竞争格局,以及它对中国AI民主化进程的深远意义。一颗星的分支:零更新克隆如何暴露开源AI的脆弱根基一个名为uyoungii/fastchat的GitHub仓库,作为热门框架FastChat的直接克隆,仅获一颗星且从未更新。AINews深入调查这一现象,揭示其背后开源AI基础设施的碎片化风险与信任危机。Firecracker MicroVM:AWS 从内核重写无服务器基础设施的秘密武器亚马逊云服务(AWS)开源了 Firecracker,一款轻量级虚拟机监控器,能在 125 毫秒内启动微虚拟机,内存开销不到 5 MiB。这项技术是 AWS Lambda 和 Fargate 背后的秘密引擎,正在重塑无服务器计算的经济学。

常见问题

GitHub 热点“Devika: The Open-Source Agentic Engineer That Could Redefine AI Coding Assistants”主要讲了什么?

Devika, developed by the stitionai team, is making waves as the first fully open-source agentic software engineer. Launched as a direct response to Cognition AI's Devin, which rema…

这个 GitHub 项目在“Devika vs Devin comparison”上为什么会引发关注?

Devika's architecture is its most compelling feature. Unlike monolithic AI coding assistants, Devika is designed as a modular system with four core components: a Planner, a Coder, an Executor, and a Debugger. This design…

从“how to install Devika locally”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 19504,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。