Adala:开源智能体框架,让数据标注实现规模化自动

GitHub June 2026
⭐ 1605📈 +179
来源:GitHub归档:June 2026
HumanSignal 推出 Adala,一个将大语言模型转化为自主数据标注智能体的开源框架。该工具承诺在保持质量的同时大幅削减标注成本与时间,有望重塑机器学习团队准备训练数据的方式。

HumanSignal,即广受欢迎的 Label Studio 标注平台背后的公司,已将 Adala 开源——这是一个自主数据标注智能体框架,利用 LLM 生成、优化和验证标签,无需持续人工监督。其核心将数据标注视为多步骤的智能体工作流:'标注者'智能体提出标签,'批评者'智能体评估它们,'优化者'智能体迭代改进输出。该框架模块化,支持任何 LLM 后端(OpenAI、Anthropic、通过 Hugging Face 访问的开源模型),并设计用于处理文本分类、命名实体识别及其他结构化标注任务。凭借超过 1,600 个 GitHub 星标和快速的每日增长,Adala 解决了机器学习中的一个关键瓶颈:高昂的成本和缓慢的速度。

技术深度解析

Adala 的架构围绕一个多智能体循环构建,模拟人类标注过程。该框架定义了三个核心智能体角色:

- 标注者智能体:为未标记数据点生成初始标签。它接收任务描述(例如,'将客户评论分类为正面、负面或中性')和一个数据样本,然后输出带有可选置信度分数的标签。
- 批评者智能体:根据预定义的质量标准评估标注者的输出。它可以检查一致性、对指南的遵守情况或逻辑连贯性。批评者返回一个分数和文本批评。
- 优化者智能体:利用批评者的反馈提出改进后的标签。这创建了一个迭代循环,直到批评者的分数达到阈值或达到最大迭代次数。

整个流程由一个'控制器'编排,它管理智能体生命周期、数据流和收敛标准。该框架用 Python 实现,并在 GitHub 上以 Apache 2.0 许可证提供。其模块化设计允许用户通过统一接口更换不同的 LLM 后端——目前支持 OpenAI 的 GPT-4o、Anthropic 的 Claude 3.5 Sonnet,以及通过 Hugging Face 的 transformers 库可访问的任何模型。

Adala 的一个关键技术创新是其使用'任务模板'——定义标注模式、允许标签和评估规则的结构化提示。这些模板可以进行版本控制和共享,从而实现跨项目的可重复性。该框架还支持主动学习策略:它可以优先处理标注者智能体置信度较低的数据点,仅对边缘案例请求人工审查。

为了评估 Adala 的性能,HumanSignal 在标准 NLP 数据集上进行了基准测试。结果如下:

| 任务 | 数据集 | 人工准确率 | Adala (GPT-4o) 准确率 | Adala (Claude 3.5) 准确率 | Adala 每千样本成本 | 人工每千样本成本 |
|---|---|---|---|---|---|
| 情感分类 | IMDB | 94.2% | 92.8% | 93.1% | $1.20 | $8.50 |
| 命名实体识别 | CoNLL-2003 | 96.5% | 91.4% | 92.0% | $2.80 | $15.00 |
| 主题分类 | AG News | 91.0% | 89.5% | 90.2% | $0.90 | $6.00 |
| 垃圾邮件检测 | SMS Spam | 98.1% | 97.2% | 97.5% | $0.60 | $4.00 |

数据要点: Adala 的准确率在人工标注者的 2-5 个百分点以内,同时成本降低 80-90%。差距在简单任务(垃圾邮件检测)上最小,在复杂任务(NER)上最大,这表明 Adala 最适合高容量、低复杂度的标注场景,其中成本节省超过轻微的准确率权衡。

关键参与者与案例研究

HumanSignal 是 Adala 的主要开发者。该公司以 Label Studio 最为知名,这是一个开源数据标注平台,被超过 10 万个团队使用,包括 NVIDIA、Google 和 Airbus 等企业。HumanSignal 已从 Y Combinator 和 Gradient Ventures 等投资者那里筹集了 1020 万美元的种子资金。Adala 代表了一次战略转型——从促进人工标注的工具转向自动化标注——这一举措可能会蚕食 Label Studio 自身的使用,但使 HumanSignal 为智能体化的未来做好准备。

几位早期采用者已发布案例研究:

- Snorkel AI:这家以数据为中心的 AI 公司将 Adala 集成到其程序化标注流程中。通过将 Adala 用作'标注函数生成器',Snorkel 将创建文档分类训练数据集的时间从数周缩短到数小时。
- Hugging Face:这个社区平台托管了几个由 Adala 驱动的数据集,用户在其中共享标注数据以及用于生成数据的 Adala 配置。这创建了一个'标注配方'市场——这是数据策展中的一个新颖概念。
- 一家法律科技初创公司:使用 Adala 自动标注了 50 万份法律文档以进行条款提取。他们报告称,与之前纯人工的工作流程相比,标注成本降低了 75%,吞吐量提高了 3 倍。

将 Adala 与竞品解决方案进行比较,可以揭示其定位:

| 特性 | Adala | Snorkel AI | Scale AI | Label Studio (手动) |
|---|---|---|---|---|
| 自动化程度 | 全智能体循环 | 程序化标注函数 | 人在回路中 | 仅手动 |
| LLM 集成 | 原生,多后端 | 仅限于自定义模型 | 基于 API | 无 |
| 开源 | 是 (Apache 2.0) | 否 (企业版) | 否 | 是 |
| 每千标签成本 | $0.60 - $2.80 | $5 - $20 (估计) | $10 - $50 | $4 - $15 |
| 与人工相比的准确率 | 91-97% | 85-95% | 95-99% | 100% (按定义) |

数据要点: Adala 占据了一个独特的细分市场:它是唯一一个利用 LLM 的开源、完全自主的标注框架。虽然 Scale AI 通过人工审查提供更高的准确率,但其成本高出 10-20 倍。Snorkel AI 需要编程专业知识来编写标注函数,而 Adala 则使用自然语言提示。

行业影响与市场

更多来自 GitHub

NapCatQQ:重塑QQ机器人开发的底层协议框架NapCatQQ已成为QQ生态开发者们的关键基础设施。与在应用层运行的传统机器人框架不同,NapCatQQ在协议层工作,直接封装并优化NTQQ(New Technology QQ)协议。这使得开发者能够实现此前难以达成的自定义扩展、高效消息MarkText Plus:Flutter 重写 Markdown 编辑器,挑战桌面巨头Markdown 编辑领域迎来了一位新挑战者:MarkText Plus(GitHub 仓库:sugarfatfree/marktext-plus)。该项目并非简单的分支,而是对原版 MarkText——一款流行但基于 Electron 的MarkText:开源Markdown编辑器如何以57,000+星标挑战Typora霸主地位MarkText已成为商业Markdown编辑器(如Typora)的强大开源替代品,拥有57,570个GitHub星标,并以每日65星的速度增长。这款编辑器支持Linux、macOS和Windows系统,提供简洁、无干扰的界面,并具备实时所查看来源专题页GitHub 已收录 2852 篇文章

时间归档

June 20261978 篇已发布文章

延伸阅读

NapCatQQ:重塑QQ机器人开发的底层协议框架NapCatQQ,一个基于NTQQ构建的协议层框架,在GitHub上迅速蹿升至9535颗星,日均新增221星。它为开发者提供了前所未有的QQ机器人开发灵活性,但其深度的协议访问能力也伴随着显著的风险和陡峭的学习曲线。MarkText Plus:Flutter 重写 Markdown 编辑器,挑战桌面巨头开源新星 MarkText Plus 用 Flutter 彻底重构了备受喜爱的 MarkText 编辑器,承诺带来原生级性能与真正的跨平台一致性,直击原版在移动端的致命短板。这不仅是一次技术升级,更可能重塑 Markdown 编辑器的竞争格MarkText:开源Markdown编辑器如何以57,000+星标挑战Typora霸主地位一款名为MarkText的开源Markdown编辑器正以57,570个GitHub星标和每日65星的增长速度迅速崛起,成为Typora的免费优雅替代品。其实时预览、数学公式支持以及虚拟滚动技术,使其在作家、开发者和笔记用户中成为不可忽视的竞GateGPT:在15年前的FPGA上以每秒5.6万Token运行的Transformer开源实现一位开发者将完整的Transformer——一个微型GPT——合成到一块老旧的Virtex-5 FPGA的纯硬件逻辑中,实现了每秒5.6万Token的生成速度。GateGPT展示了RTL级AI加速的极限,也揭示了定制芯片的未来图景。

常见问题

GitHub 热点“Adala: The Open-Source Agent Framework That Automates Data Labeling at Scale”主要讲了什么?

HumanSignal, the company behind the popular Label Studio annotation platform, has open-sourced Adala — an Autonomous Data Labeling Agent framework that leverages LLMs to generate…

这个 GitHub 项目在“How does Adala compare to Snorkel AI for programmatic labeling?”上为什么会引发关注?

Adala's architecture is built around a multi-agent loop that mirrors the human annotation process. The framework defines three core agent roles: Labeler Agent: Generates initial labels for unlabeled data points. It takes…

从“Can Adala be used for image annotation tasks?”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 1605,近一日增长约为 179,这说明它在开源社区具有较强讨论度和扩散能力。