Langfuse:重塑AI工程的开源大模型可观测性平台

GitHub April 2026
⭐ 25921📈 +362
来源:GitHub归档:April 2026
来自Y Combinator W23批次的开源LLM工程平台Langfuse,GitHub星标数已飙升至26,000以上。它提供了一套统一的工具集,用于追踪、评估和管理整个LLM应用生命周期中的提示词,正成为AI团队的关键基础设施。

Langfuse已成为LLM工程领域的领先开源平台,提供了一套全面的可观测性、评估和提示词管理工具。该平台源自Y Combinator 2023年冬季批次,经历了爆炸式增长,如今在GitHub上拥有超过26,000颗星标,日均新增星标超过360个。其核心价值主张在于提供一个统一的端到端解决方案,深度集成LangChain、OpenAI SDK、LiteLLM和OpenTelemetry等主流LLM开发栈。这使得团队能够从开发到生产全程追踪LLM调用,通过A/B测试管理提示词版本,运行人工和自动化评估,并维护用于微调和测试的数据集。Langfuse的意义在于,它为AI工程团队提供了一种前所未有的透明度和控制力,将LLM应用从“黑盒”转变为可观测、可调试、可优化的系统。

技术深度解析

Langfuse的架构建立在几个核心技术支柱之上,使其既强大又灵活。其核心是一个追踪引擎,能够将每一次LLM调用、嵌入和检索步骤捕获为结构化事件。这不仅仅是日志记录;它是一个专为LLM交互独特特性量身定制的分布式追踪系统,这些交互通常涉及多次调用、工具使用和上下文窗口。该平台采用类似于OpenTelemetry的基于跨度(span)的追踪模型,其中每个交互(例如,对GPT-4的调用、向量数据库查询、提示词模板渲染)都是一个具有父子层级关系的跨度。这使得开发者能够可视化整个推理链条,并识别延迟瓶颈或成本热点。

一个关键的工程决策是Langfuse的双模式部署:完全托管的云服务和自托管选项。自托管版本使用标准技术栈:PostgreSQL(用于元数据和评估结果)和ClickHouse(用于高性能时间序列追踪数据)。这种分离至关重要,因为追踪数据是写密集型且面向时间序列的,而评估分数和提示词配置则更具关系型特征。ClickHouse后端能够在数百万条追踪记录上实现亚秒级查询,这对于实时监控仪表盘至关重要。

提示词管理系统是另一个技术上令人感兴趣的组件。它将提示词模板存储为版本化对象,通过将不同版本分配给不同用户群体或模型配置来实现A/B测试。这是通过一个简单但有效的API实现的:每个提示词版本一旦创建就不可变,系统会追踪每个追踪记录使用了哪个版本。这就在提示词变更与下游评估分数之间建立了直接联系,从而实现数据驱动的提示词优化。

对于评估,Langfuse同时支持人工(通过UI进行手动评分)和自动化(LLM作为评判者、自定义代码)方法。自动化评估管道可以配置为在追踪完成后异步运行,使用单独的LLM调用根据有用性、正确性或安全性等标准判断输出。这是一种计算成本高昂但非常有效的方法,Langfuse的架构优雅地处理了异步特性,将评估结果存储回同一追踪记录中,以便统一查看。

集成深度是一个主要的技术优势。该平台为Python、TypeScript/JavaScript提供了官方SDK,以及一个REST API。它还维护了与LangChain(作为回调处理器)、OpenAI(通过客户端包装器)和LiteLLM的一流集成。对于OpenTelemetry,Langfuse可以摄取来自任何兼容OpenTelemetry源的追踪数据,使其成为现有可观测性管道的即插即用替代品。GitHub仓库(langfuse/langfuse)维护活跃,发布频繁,社区已贡献了超过100个集成和插件。

| 特性 | Langfuse | 竞品A(例如Weights & Biases Prompts) | 竞品B(例如Helicone) |
|---|---|---|---|
| 开源 | 是(MIT许可证) | 否(专有) | 否(专有) |
| 自托管 | 是(Docker, K8s) | 否 | 否 |
| 追踪深度 | 完整的基于跨度,带上下文 | 基本的调用级别 | 带成本追踪的调用级别 |
| 提示词管理 | 版本化,A/B测试 | 基本版本控制 | 不可用 |
| 评估 | 人工 + 自动化(LLM作为评判者) | 仅人工 | 自动化(有限) |
| 成本追踪 | 按调用、按模型、按用户 | 按运行 | 按调用 |
| GitHub星标 | 26,000+ | 不适用(闭源) | 不适用(闭源) |

数据要点: Langfuse的开源模式和自托管能力使其相对于专有竞争对手具有显著优势,尤其是对于具有严格数据治理要求的企业。其功能集也更加全面,涵盖了从提示词管理到生产监控的完整生命周期。

关键参与者与案例研究

Langfuse由Clemens RawertMarc Klingen共同创立,两人均具有软件工程和机器学习背景。他们参加了Y Combinator 2023年冬季批次,获得了初始资金和指导。此后,该平台吸引了来自GitHubMicrosoftGoogle等公司的贡献者社区,这些公司在内部将其用于LLM项目。

一个值得注意的案例是Replit,这个基于云的IDE平台。Replit使用Langfuse监控其AI驱动的代码补全和调试功能。通过集成Langfuse的追踪功能,他们识别出提示词构建管道中的瓶颈,从而将延迟降低了40%。另一个例子是Apollo.io,一个销售智能平台,它使用Langfuse对其AI邮件助手的不同提示词模板进行A/B测试,使用户参与度提高了15%。

在竞争格局中,Langfuse面临着来自其他可观测性平台的挑战,但其开源特性、全面的功能集以及活跃的社区使其在AI工程领域占据了独特的地位。

更多来自 GitHub

Build123d:有望取代OpenSCAD与CadQuery的Python CAD库Build123d是一个纯Python编写的程序化CAD建模库,旨在作为OpenSCAD和CadQuery的现代替代品。它利用OpenCASCADE Technology (OCCT) 内核实现稳健的布尔运算、2D/3D几何操作和实体建模,ARC-AGI:暴露AI推理短板的终极基准测试,为何它至关重要ARC-AGI(抽象与推理语料库)是一个专为衡量AI系统在全新任务上进行抽象推理能力而设计的基准测试,而非测试其对记忆模式的熟练程度。由François Chollet创建,该语料库包含数百个独特的任务,每个任务都以一组输入-输出网格示例的OpenAI Cookbook:掌握GPT API与提示工程的非官方圣经OpenAI Cookbook不仅仅是一个文档库,更是一项战略性资产,它降低了整个AI开发者生态的入门门槛。由OpenAI维护,该Cookbook提供了数百个即用型Python代码片段,涵盖文本生成、嵌入、微调、函数调用以及高级提示工程技术查看来源专题页GitHub 已收录 990 篇文章

时间归档

April 20262243 篇已发布文章

延伸阅读

微软推出Prompty框架:为企业AI工程化LLM提示词制定标准微软近日发布Prompty框架,旨在为混乱的大型语言模型提示词工程带来结构与可观测性。该框架将提示词视为可版本控制、可测试的资产,直击AI应用从原型迈向可靠生产系统的核心瓶颈。Build123d:有望取代OpenSCAD与CadQuery的Python CAD库一款名为Build123d的纯Python CAD库正迅速崛起,吸引了大量希望用脚本构建参数化3D模型、却不愿学习领域特定语言的开发者。凭借超过2000颗GitHub星标和激增的日活跃度,它承诺提供比前辈更简洁的API,以及与OpenCASARC-AGI:暴露AI推理短板的终极基准测试,为何它至关重要多年来,AI基准测试总被数据和算力的堆砌所“攻破”。而由Keras作者François Chollet打造的ARC-AGI,却反其道而行之——仅凭寥寥几个示例,就要求AI展现真正的抽象与推理能力。本文将深入剖析,为何ARC-AGI已成为衡量OpenAI Cookbook:掌握GPT API与提示工程的非官方圣经OpenAI Cookbook已成为开发者构建GPT模型的事实起点。凭借超过72,900个GitHub星标,这套官方Python代码片段与最佳实践合集,正在重塑整个生态学习提示工程、函数调用和微调的方式。

常见问题

GitHub 热点“Langfuse: The Open Source LLM Observability Platform Reshaping AI Engineering”主要讲了什么?

Langfuse has emerged as a leading open-source platform for LLM engineering, offering a comprehensive suite of tools for observability, evaluation, and prompt management. The platfo…

这个 GitHub 项目在“Langfuse vs LangSmith comparison”上为什么会引发关注?

Langfuse's architecture is built around a few core technical pillars that make it both powerful and flexible. At its heart is a tracing engine that captures every LLM call, embedding, and retrieval step as a structured e…

从“How to self-host Langfuse with Docker”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 25921,近一日增长约为 362,这说明它在开源社区具有较强讨论度和扩散能力。