技术深度解析
Adala 的架构围绕一个多智能体循环构建,模拟人类标注过程。该框架定义了三个核心智能体角色:
- 标注者智能体:为未标记数据点生成初始标签。它接收任务描述(例如,'将客户评论分类为正面、负面或中性')和一个数据样本,然后输出带有可选置信度分数的标签。
- 批评者智能体:根据预定义的质量标准评估标注者的输出。它可以检查一致性、对指南的遵守情况或逻辑连贯性。批评者返回一个分数和文本批评。
- 优化者智能体:利用批评者的反馈提出改进后的标签。这创建了一个迭代循环,直到批评者的分数达到阈值或达到最大迭代次数。
整个流程由一个'控制器'编排,它管理智能体生命周期、数据流和收敛标准。该框架用 Python 实现,并在 GitHub 上以 Apache 2.0 许可证提供。其模块化设计允许用户通过统一接口更换不同的 LLM 后端——目前支持 OpenAI 的 GPT-4o、Anthropic 的 Claude 3.5 Sonnet,以及通过 Hugging Face 的 transformers 库可访问的任何模型。
Adala 的一个关键技术创新是其使用'任务模板'——定义标注模式、允许标签和评估规则的结构化提示。这些模板可以进行版本控制和共享,从而实现跨项目的可重复性。该框架还支持主动学习策略:它可以优先处理标注者智能体置信度较低的数据点,仅对边缘案例请求人工审查。
为了评估 Adala 的性能,HumanSignal 在标准 NLP 数据集上进行了基准测试。结果如下:
| 任务 | 数据集 | 人工准确率 | Adala (GPT-4o) 准确率 | Adala (Claude 3.5) 准确率 | Adala 每千样本成本 | 人工每千样本成本 |
|---|---|---|---|---|---|
| 情感分类 | IMDB | 94.2% | 92.8% | 93.1% | $1.20 | $8.50 |
| 命名实体识别 | CoNLL-2003 | 96.5% | 91.4% | 92.0% | $2.80 | $15.00 |
| 主题分类 | AG News | 91.0% | 89.5% | 90.2% | $0.90 | $6.00 |
| 垃圾邮件检测 | SMS Spam | 98.1% | 97.2% | 97.5% | $0.60 | $4.00 |
数据要点: Adala 的准确率在人工标注者的 2-5 个百分点以内,同时成本降低 80-90%。差距在简单任务(垃圾邮件检测)上最小,在复杂任务(NER)上最大,这表明 Adala 最适合高容量、低复杂度的标注场景,其中成本节省超过轻微的准确率权衡。
关键参与者与案例研究
HumanSignal 是 Adala 的主要开发者。该公司以 Label Studio 最为知名,这是一个开源数据标注平台,被超过 10 万个团队使用,包括 NVIDIA、Google 和 Airbus 等企业。HumanSignal 已从 Y Combinator 和 Gradient Ventures 等投资者那里筹集了 1020 万美元的种子资金。Adala 代表了一次战略转型——从促进人工标注的工具转向自动化标注——这一举措可能会蚕食 Label Studio 自身的使用,但使 HumanSignal 为智能体化的未来做好准备。
几位早期采用者已发布案例研究:
- Snorkel AI:这家以数据为中心的 AI 公司将 Adala 集成到其程序化标注流程中。通过将 Adala 用作'标注函数生成器',Snorkel 将创建文档分类训练数据集的时间从数周缩短到数小时。
- Hugging Face:这个社区平台托管了几个由 Adala 驱动的数据集,用户在其中共享标注数据以及用于生成数据的 Adala 配置。这创建了一个'标注配方'市场——这是数据策展中的一个新颖概念。
- 一家法律科技初创公司:使用 Adala 自动标注了 50 万份法律文档以进行条款提取。他们报告称,与之前纯人工的工作流程相比,标注成本降低了 75%,吞吐量提高了 3 倍。
将 Adala 与竞品解决方案进行比较,可以揭示其定位:
| 特性 | Adala | Snorkel AI | Scale AI | Label Studio (手动) |
|---|---|---|---|---|
| 自动化程度 | 全智能体循环 | 程序化标注函数 | 人在回路中 | 仅手动 |
| LLM 集成 | 原生,多后端 | 仅限于自定义模型 | 基于 API | 无 |
| 开源 | 是 (Apache 2.0) | 否 (企业版) | 否 | 是 |
| 每千标签成本 | $0.60 - $2.80 | $5 - $20 (估计) | $10 - $50 | $4 - $15 |
| 与人工相比的准确率 | 91-97% | 85-95% | 95-99% | 100% (按定义) |
数据要点: Adala 占据了一个独特的细分市场:它是唯一一个利用 LLM 的开源、完全自主的标注框架。虽然 Scale AI 通过人工审查提供更高的准确率,但其成本高出 10-20 倍。Snorkel AI 需要编程专业知识来编写标注函数,而 Adala 则使用自然语言提示。