LangSmith审计追踪：让大语言模型在受监管行业中真正可问责

2026年6月14日 12:31 AINews Towards AI June 2026

LangSmith推出的全新审计级追踪与回调系统，正将大语言模型从不可知的黑盒转变为完全可审计的系统。通过实时捕捉每一次Token生成、延迟波动和模型决策路径，这一基础设施层正在解决长期将LLM挡在受监管行业门外的合规瓶颈。

LangSmith，由LangChain团队打造的观测性平台，近日推出了一套追踪与回调系统，从根本上重新定义了企业审计大语言模型（LLM）的方式。与传统仅记录输入输出的日志系统不同，LangSmith的架构捕捉了整个决策链：中间推理步骤、工具调用序列以及延迟模式。这种粒度将观测性从调试工具转变为合规工具。对于金融、医疗和法律等受监管行业而言，在审计期间能够重放模型的确切决策路径已不再是锦上添花——而是监管要求。该系统可扩展的回调钩子允许组织构建自定义告警、追踪成本，甚至自动回滚。

技术深度解析

LangSmith的审计级追踪系统构建在分布式追踪架构之上，将OpenTelemetry原则扩展到LLM工作流的独特挑战中。其核心采用分层跨度模型，每次对LLM的API调用、每次工具调用和每次检索步骤都被记录为独立的跨度，并建立父子关系。这与将每个请求视为孤立事件的传统日志记录有根本不同。

关键创新在于回调系统。LangSmith提供了一组预构建的回调，可在多个点接入LangChain的执行管道：在模型调用之前、在每个Token生成之后、在工具返回之后以及链完成时。这些回调不仅捕捉最终输出，还捕捉中间推理步骤——模型在每个阶段的“思考”过程。例如，在多步推理链中，系统会记录发送给模型的确切提示、每个Token的原始logits（概率分布）、使用的temperature和top-p采样参数，以及每一步的延迟。这种细节级别对审计至关重要，因为它允许合规官验证模型没有偏离批准的决策路径。

从工程角度来看，该系统结合了同步和异步追踪。同步追踪实时捕获事件以进行即时告警，而异步追踪则将事件批量处理以进行长期存储和重放。数据以列式格式存储，针对时间序列查询进行了优化，使分析师能够按模型版本、延迟百分位数或特定错误类型进行筛选。LangSmith还通过OpenTelemetry导出器与Datadog和Grafana等现有观测性堆栈集成，使企业能够将LLM追踪与现有监控基础设施合并。

该领域一个值得注意的开源项目是OpenLLMetry（GitHub：`traceloop/openllmetry`），它为LLM应用提供了基于OpenTelemetry的检测层。虽然OpenLLMetry专注于标准化不同LLM提供商之间的追踪，但LangSmith更进一步，提供了内置的审计特定功能，如追踪重放和合规仪表板。LangSmith仓库本身并非完全开源，但其核心追踪SDK可在GitHub（`langchain-ai/langsmith-sdk`）上获取，已获得超过2,000颗星。

| 特性 | LangSmith | OpenLLMetry | 传统日志记录 |
|---|---|---|---|
| 追踪粒度 | Token级别，包含中间推理 | API调用级别 | 仅输入/输出 |
| 回调可扩展性 | 用于告警、成本追踪、回滚的自定义钩子 | 仅限于OpenTelemetry跨度 | 无 |
| 审计重放 | 完整决策路径重放 | 无重放 | 无重放 |
| 合规仪表板 | 内置 | 需要外部工具 | 需要自定义构建 |
| 延迟捕获 | 每个Token和每一步 | 每次API调用 | 每个请求 |

数据要点： LangSmith提供的粒度比传统日志记录高出一个数量级，并且比开源替代方案拥有更多审计特定功能。这使其成为目前唯一能够满足金融和医疗等行业模型可解释性监管要求的解决方案。

关键参与者与案例研究

LangSmith由LangChain Inc.开发，该公司是流行LangChain框架的幕后公司。LangChain已从包括Sequoia Capital和Greylock在内的投资者那里筹集了超过2500万美元，其平台被超过50,000名开发者使用。该公司的战略是拥有LLM应用的基础设施层，而LangSmith是该战略的观测性和合规性支柱。

竞争产品包括Weights & Biases Prompts，它提供LLM提示的实验追踪，但缺乏实时追踪和审计能力。Arize AI提供LLM观测性，侧重于性能监控和漂移检测，但其追踪粒度不如LangSmith。Helicone提供成本和延迟追踪，但不捕获中间推理步骤。下表比较了这些解决方案：

| 产品 | 实时追踪 | Token级别粒度 | 审计重放 | 合规仪表板 | 定价模式 |
|---|---|---|---|---|---|
| LangSmith | 是 | 是 | 是 | 是 | 按使用量计费，提供免费层级 |
| Weights & Biases Prompts | 否 | 否 | 否 | 有限 | 按席位订阅 |
| Arize AI | 是 | 部分（API级别） | 否 | 是 | 按使用量计费 |
| Helicone | 是 | 否 | 否 | 否 | 按使用量计费 |

数据要点： LangSmith是唯一将实时Token级别追踪与审计重放和合规仪表板相结合的产品。这使其在每一个决策都必须可辩护的受监管行业中具有独特定位。

一个值得注意的案例是JPMorgan Chase，该银行一直在测试LangSmith用于其内部LLM驱动的合规工具。该银行要求任何用于重新

常见问题

这篇关于“LangSmith Audit Traces: Making Large Language Models Accountable for Regulated Industries”的文章讲了什么？

LangSmith, the observability platform built by the creators of LangChain, has introduced a tracing and callback system that fundamentally redefines how enterprises audit large lang…

从“How does LangSmith trace compare to OpenTelemetry for LLMs”看，这件事为什么值得关注？

LangSmith's audit-grade tracing system is built on a distributed tracing architecture that extends OpenTelemetry principles to the unique challenges of LLM workflows. At its core, the system uses a hierarchical span mode…

如果想继续追踪“Cost of LangSmith token-level tracing for large enterprises”，应该重点看什么？

可以继续查看本文整理的原文链接、相关文章和 AI 分析部分，快速了解事件背景、影响与后续进展。

LangSmith审计追踪：让大语言模型在受监管行业中真正可问责

技术深度解析

关键参与者与案例研究

更多来自 Towards AI

时间归档

延伸阅读

常见问题