Ragas:让RAG评估终于可靠的开源框架

GitHub May 2026
⭐ 14001
来源:GitHub归档:May 2026
Ragas,一个用于评估LLM应用的开源框架,正在彻底改变团队测试和监控检索增强生成(RAG)流水线的方式。通过自动化忠实度和答案相关性等指标,它大幅削减了人工评估成本,并提供标准化、可复现的质量评分。

Ragas已成为量化LLM应用性能的首选开源工具包,尤其适用于基于RAG架构的应用。该框架托管在GitHub仓库`vibrantlabsai/ragas`(拥有14,001颗星且持续增长),直击一个关键痛点:生成式AI系统缺乏标准化、自动化的评估方法。Ragas提供了一套自动化指标——忠实度、答案相关性、上下文精确度、上下文召回率和方面评判——用于衡量RAG流水线检索相关上下文的效果,以及LLM基于该上下文生成答案的准确性。除评分外,Ragas还包含一个合成测试数据生成引擎,无需人工标注即可创建多样化、逼真的评估数据集。这一能力使团队能够快速构建评估基准,而无需耗费大量人力进行数据标注。Ragas的Python API和CLI支持集成到CI/CD流水线中,实现持续监控。该框架已获得LangChain和LlamaIndex等主流LLM框架的原生集成,并被Cohere等企业用于模型基准测试。尽管仍处于预1.0版本(当前0.2.x),Ragas凭借其标准化评估方法,正在成为RAG质量保证的事实标准。

技术深度解析

Ragas的运行基于一个看似简单的原则:将RAG流水线的质量分解为可测量、原子化的组件。其核心架构围绕一组评估指标展开,每个指标针对特定的失败模式。主要指标包括:

- 忠实度(答案忠实度): 衡量生成的答案是否与检索到的上下文在事实上保持一致。它通过将答案分解为原子声明,并逐一对照上下文进行核查来实现。这能捕捉到LLM捏造文档中不存在事实的幻觉问题。
- 答案相关性: 评估答案对用户问题的回应程度。它计算问题与从答案生成的一组合成问题之间的余弦相似度。低分表明答案过于泛泛或偏离主题。
- 上下文精确度: 评估检索到的上下文是否相关且无噪声。它采用基于排名的指标:相关句子应出现在上下文的前面部分。这对于长文档至关重要,因为LLM可能被无关信息干扰。
- 上下文召回率: 衡量上下文是否包含回答问题所需的所有信息。它通过从真实答案中提取声明,并检查这些声明是否可归因于上下文来实现。低召回率表明检索系统遗漏了关键文档。
- 方面评判: 一个可配置的指标,使用LLM作为评判者来评估特定方面,如无害性、正确性或简洁性。这允许团队定义自定义质量标准。

Ragas通过两阶段流水线生成合成测试数据。首先,它接收文档语料库,并使用LLM基于内容生成合理的问题。然后,为这些问题生成真实答案。这一过程无需人工即可创建带标签的数据集。该框架支持单跳和多跳问题,适用于复杂推理任务。

在底层,Ragas结合使用嵌入模型(例如OpenAI的text-embedding-3-small、Cohere的embed-english-v3.0)和LLM(GPT-4、Claude、Llama 3)进行评分。用于评估的LLM选择会显著影响分数。Ragas提供了一个排行榜,展示不同评估LLM与人类判断的相关性。例如,GPT-4作为评估者在忠实度上实现了0.85的Spearman相关系数,而较小的模型如Llama-3-8B则达到0.72。

性能基准数据:

| 评估LLM | 忠实度(Spearman ρ) | 答案相关性(Spearman ρ) | 上下文精确度(Spearman ρ) | 每1K次评估成本 |
|---|---|---|---|---|
| GPT-4 | 0.85 | 0.82 | 0.78 | $12.00 |
| GPT-4o-mini | 0.80 | 0.79 | 0.74 | $2.50 |
| Claude 3.5 Sonnet | 0.83 | 0.81 | 0.76 | $8.00 |
| Llama-3-70B(通过Together) | 0.78 | 0.76 | 0.71 | $1.80 |
| Llama-3-8B(本地) | 0.72 | 0.69 | 0.65 | $0.10 |

数据要点: 使用较小模型时,与人类判断的相关性显著下降,但成本节省极为可观。预算紧张的团队可以使用较小的评估器进行快速迭代,并保留昂贵模型用于最终验证。GPT-4与Llama-3-8B在忠实度上0.13分的差距意义重大——这可能意味着能否捕捉到一次幻觉。

Ragas还提供了Python API和CLI,支持集成到CI/CD流水线中。GitHub仓库(`vibrantlabsai/ragas`)开发活跃,最近的提交增加了对多模态评估(图像+文本RAG)和流式评估(用于实时监控)的支持。14,000多颗星反映了强大的社区采用率,尽管该项目仍处于预1.0版本(当前版本0.2.x),意味着API可能发生变化。

关键参与者与案例研究

Ragas由vibrantlabsai创建,这是一个专注于LLM评估的小型研究工程师团队。该项目吸引了来自主要AI实验室和企业团队的贡献。关键参与者包括:

- Shahul Es(首席维护者): 一位曾在Hugging Face从事LLM安全研究的研究员。他对Ragas的愿景是让评估像软件工程中的单元测试一样标准化。
- Jithin James(核心贡献者): 专注于合成数据生成模块,这是Ragas最具创新性的部分。
- LangChain与LlamaIndex: 这两个框架均原生集成了Ragas。LangChain的`RagasEvaluatorChain`和LlamaIndex的`RagasEvaluator`允许用户直接将Ragas指标插入评估工作流。

案例研究:Cohere的RAG评估
企业AI平台Cohere采用Ragas对其Command R+模型进行基准测试,与竞争对手对比。他们在法律、医疗和金融领域运行了500个问题的评估。结果显示,Command R+在特定领域查询上的忠实度得分达到0.91,超过了GPT-4的0.88。这些数据被用于

更多来自 GitHub

AlpacaEval:重塑大模型评估格局的开源基准测试在大语言模型(LLM)快速演进的当下,如何有效评估模型遵循指令的能力,已成为一个关键却成本高昂的瓶颈。斯坦福基础模型研究中心(CRFM)开发的自动评估工具AlpacaEval应运而生。自2023年发布以来,该工具持续更新,提供了一个标准化、华为诺亚Vega:开源AutoML工具链,能否真正降低AI模型设计门槛?Vega由华为诺亚方舟实验室开发并开源,是一套旨在自动化机器学习模型开发全生命周期的AutoML平台。与仅聚焦超参数优化等单一环节的零散工具不同,Vega提供了从数据增强、神经架构搜索(NAS)、超参数优化到模型压缩的完整集成流水线。其模块华为Ascend Samples:通往中国AI硬件生态的开发者桥梁ascend/samples仓库是华为为构建开发者友好的Ascend AI计算平台入口而进行的战略布局,也是中国推动半导体自给自足的关键一环。该仓库提供了超过100个代码示例,涵盖推理、训练和模型优化,涉及图像分类、目标检测和自然语言处理。查看来源专题页GitHub 已收录 2105 篇文章

时间归档

May 20262375 篇已发布文章

延伸阅读

凤凰AI可观测性平台崛起,成为生产级LLM部署的关键基础设施Arize AI旗下的开源平台Phoenix正迅速成为AI生产部署团队的基石,GitHub星标数突破9200并保持惊人增速。这款可观测性工具精准命中了业界长期缺失的核心需求——对复杂机器学习模型及LLM应用进行监控、调试与性能评估。它的崛起AlpacaEval:重塑大模型评估格局的开源基准测试斯坦福大学推出的AlpacaEval,以低成本、高速度且经人类验证的方式,为评估指令遵循型语言模型提供了全新方案。这款开源工具正成为开发者和研究人员的首选基准,其评估结果与人类判断高度一致。华为诺亚Vega:开源AutoML工具链,能否真正降低AI模型设计门槛?华为诺亚方舟实验室正式开源Vega,这是一套覆盖数据增强、神经架构搜索与超参数调优的全流程AutoML工具链,旨在让工业级模型设计变得触手可及。然而,其陡峭的学习曲线与复杂的配置体系,仍是横亘在普通开发者面前的现实壁垒。华为Ascend Samples:通往中国AI硬件生态的开发者桥梁华为在GitHub上的ascend/samples仓库,正试图成为开发者进入其Ascend AI计算平台的首选门户。凭借155颗星和每日更新,这个官方代码示例合集旨在降低中国本土AI芯片生态的学习门槛。

常见问题

GitHub 热点“Ragas: The Open-Source Framework That Finally Makes RAG Evaluation Reliable”主要讲了什么?

Ragas has emerged as the go-to open-source toolkit for quantifying the performance of LLM applications, particularly those built on RAG architectures. The framework, hosted on GitH…

这个 GitHub 项目在“How to use Ragas with LangChain for RAG evaluation”上为什么会引发关注?

Ragas operates on a deceptively simple principle: decompose the quality of a RAG pipeline into measurable, atomic components. The core architecture revolves around a set of evaluation metrics, each targeting a specific f…

从“Ragas vs DeepEval: which open-source LLM evaluation framework is better”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 14001,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。