技术深度解析
LangSmith的审计级追踪系统构建在分布式追踪架构之上,将OpenTelemetry原则扩展到LLM工作流的独特挑战中。其核心采用分层跨度模型,每次对LLM的API调用、每次工具调用和每次检索步骤都被记录为独立的跨度,并建立父子关系。这与将每个请求视为孤立事件的传统日志记录有根本不同。
关键创新在于回调系统。LangSmith提供了一组预构建的回调,可在多个点接入LangChain的执行管道:在模型调用之前、在每个Token生成之后、在工具返回之后以及链完成时。这些回调不仅捕捉最终输出,还捕捉中间推理步骤——模型在每个阶段的“思考”过程。例如,在多步推理链中,系统会记录发送给模型的确切提示、每个Token的原始logits(概率分布)、使用的temperature和top-p采样参数,以及每一步的延迟。这种细节级别对审计至关重要,因为它允许合规官验证模型没有偏离批准的决策路径。
从工程角度来看,该系统结合了同步和异步追踪。同步追踪实时捕获事件以进行即时告警,而异步追踪则将事件批量处理以进行长期存储和重放。数据以列式格式存储,针对时间序列查询进行了优化,使分析师能够按模型版本、延迟百分位数或特定错误类型进行筛选。LangSmith还通过OpenTelemetry导出器与Datadog和Grafana等现有观测性堆栈集成,使企业能够将LLM追踪与现有监控基础设施合并。
该领域一个值得注意的开源项目是OpenLLMetry(GitHub:`traceloop/openllmetry`),它为LLM应用提供了基于OpenTelemetry的检测层。虽然OpenLLMetry专注于标准化不同LLM提供商之间的追踪,但LangSmith更进一步,提供了内置的审计特定功能,如追踪重放和合规仪表板。LangSmith仓库本身并非完全开源,但其核心追踪SDK可在GitHub(`langchain-ai/langsmith-sdk`)上获取,已获得超过2,000颗星。
| 特性 | LangSmith | OpenLLMetry | 传统日志记录 |
|---|---|---|---|
| 追踪粒度 | Token级别,包含中间推理 | API调用级别 | 仅输入/输出 |
| 回调可扩展性 | 用于告警、成本追踪、回滚的自定义钩子 | 仅限于OpenTelemetry跨度 | 无 |
| 审计重放 | 完整决策路径重放 | 无重放 | 无重放 |
| 合规仪表板 | 内置 | 需要外部工具 | 需要自定义构建 |
| 延迟捕获 | 每个Token和每一步 | 每次API调用 | 每个请求 |
数据要点: LangSmith提供的粒度比传统日志记录高出一个数量级,并且比开源替代方案拥有更多审计特定功能。这使其成为目前唯一能够满足金融和医疗等行业模型可解释性监管要求的解决方案。
关键参与者与案例研究
LangSmith由LangChain Inc.开发,该公司是流行LangChain框架的幕后公司。LangChain已从包括Sequoia Capital和Greylock在内的投资者那里筹集了超过2500万美元,其平台被超过50,000名开发者使用。该公司的战略是拥有LLM应用的基础设施层,而LangSmith是该战略的观测性和合规性支柱。
竞争产品包括Weights & Biases Prompts,它提供LLM提示的实验追踪,但缺乏实时追踪和审计能力。Arize AI提供LLM观测性,侧重于性能监控和漂移检测,但其追踪粒度不如LangSmith。Helicone提供成本和延迟追踪,但不捕获中间推理步骤。下表比较了这些解决方案:
| 产品 | 实时追踪 | Token级别粒度 | 审计重放 | 合规仪表板 | 定价模式 |
|---|---|---|---|---|---|
| LangSmith | 是 | 是 | 是 | 是 | 按使用量计费,提供免费层级 |
| Weights & Biases Prompts | 否 | 否 | 否 | 有限 | 按席位订阅 |
| Arize AI | 是 | 部分(API级别) | 否 | 是 | 按使用量计费 |
| Helicone | 是 | 否 | 否 | 否 | 按使用量计费 |
数据要点: LangSmith是唯一将实时Token级别追踪与审计重放和合规仪表板相结合的产品。这使其在每一个决策都必须可辩护的受监管行业中具有独特定位。
一个值得注意的案例是JPMorgan Chase,该银行一直在测试LangSmith用于其内部LLM驱动的合规工具。该银行要求任何用于重新