LangSmith审计追踪:让大语言模型在受监管行业中真正可问责

Towards AI June 2026
来源:Towards AI归档:June 2026
LangSmith推出的全新审计级追踪与回调系统,正将大语言模型从不可知的黑盒转变为完全可审计的系统。通过实时捕捉每一次Token生成、延迟波动和模型决策路径,这一基础设施层正在解决长期将LLM挡在受监管行业门外的合规瓶颈。

LangSmith,由LangChain团队打造的观测性平台,近日推出了一套追踪与回调系统,从根本上重新定义了企业审计大语言模型(LLM)的方式。与传统仅记录输入输出的日志系统不同,LangSmith的架构捕捉了整个决策链:中间推理步骤、工具调用序列以及延迟模式。这种粒度将观测性从调试工具转变为合规工具。对于金融、医疗和法律等受监管行业而言,在审计期间能够重放模型的确切决策路径已不再是锦上添花——而是监管要求。该系统可扩展的回调钩子允许组织构建自定义告警、追踪成本,甚至自动回滚。

技术深度解析

LangSmith的审计级追踪系统构建在分布式追踪架构之上,将OpenTelemetry原则扩展到LLM工作流的独特挑战中。其核心采用分层跨度模型,每次对LLM的API调用、每次工具调用和每次检索步骤都被记录为独立的跨度,并建立父子关系。这与将每个请求视为孤立事件的传统日志记录有根本不同。

关键创新在于回调系统。LangSmith提供了一组预构建的回调,可在多个点接入LangChain的执行管道:在模型调用之前、在每个Token生成之后、在工具返回之后以及链完成时。这些回调不仅捕捉最终输出,还捕捉中间推理步骤——模型在每个阶段的“思考”过程。例如,在多步推理链中,系统会记录发送给模型的确切提示、每个Token的原始logits(概率分布)、使用的temperature和top-p采样参数,以及每一步的延迟。这种细节级别对审计至关重要,因为它允许合规官验证模型没有偏离批准的决策路径。

从工程角度来看,该系统结合了同步和异步追踪。同步追踪实时捕获事件以进行即时告警,而异步追踪则将事件批量处理以进行长期存储和重放。数据以列式格式存储,针对时间序列查询进行了优化,使分析师能够按模型版本、延迟百分位数或特定错误类型进行筛选。LangSmith还通过OpenTelemetry导出器与Datadog和Grafana等现有观测性堆栈集成,使企业能够将LLM追踪与现有监控基础设施合并。

该领域一个值得注意的开源项目是OpenLLMetry(GitHub:`traceloop/openllmetry`),它为LLM应用提供了基于OpenTelemetry的检测层。虽然OpenLLMetry专注于标准化不同LLM提供商之间的追踪,但LangSmith更进一步,提供了内置的审计特定功能,如追踪重放和合规仪表板。LangSmith仓库本身并非完全开源,但其核心追踪SDK可在GitHub(`langchain-ai/langsmith-sdk`)上获取,已获得超过2,000颗星。

| 特性 | LangSmith | OpenLLMetry | 传统日志记录 |
|---|---|---|---|
| 追踪粒度 | Token级别,包含中间推理 | API调用级别 | 仅输入/输出 |
| 回调可扩展性 | 用于告警、成本追踪、回滚的自定义钩子 | 仅限于OpenTelemetry跨度 | 无 |
| 审计重放 | 完整决策路径重放 | 无重放 | 无重放 |
| 合规仪表板 | 内置 | 需要外部工具 | 需要自定义构建 |
| 延迟捕获 | 每个Token和每一步 | 每次API调用 | 每个请求 |

数据要点: LangSmith提供的粒度比传统日志记录高出一个数量级,并且比开源替代方案拥有更多审计特定功能。这使其成为目前唯一能够满足金融和医疗等行业模型可解释性监管要求的解决方案。

关键参与者与案例研究

LangSmith由LangChain Inc.开发,该公司是流行LangChain框架的幕后公司。LangChain已从包括Sequoia Capital和Greylock在内的投资者那里筹集了超过2500万美元,其平台被超过50,000名开发者使用。该公司的战略是拥有LLM应用的基础设施层,而LangSmith是该战略的观测性和合规性支柱。

竞争产品包括Weights & Biases Prompts,它提供LLM提示的实验追踪,但缺乏实时追踪和审计能力。Arize AI提供LLM观测性,侧重于性能监控和漂移检测,但其追踪粒度不如LangSmith。Helicone提供成本和延迟追踪,但不捕获中间推理步骤。下表比较了这些解决方案:

| 产品 | 实时追踪 | Token级别粒度 | 审计重放 | 合规仪表板 | 定价模式 |
|---|---|---|---|---|---|
| LangSmith | 是 | 是 | 是 | 是 | 按使用量计费,提供免费层级 |
| Weights & Biases Prompts | 否 | 否 | 否 | 有限 | 按席位订阅 |
| Arize AI | 是 | 部分(API级别) | 否 | 是 | 按使用量计费 |
| Helicone | 是 | 否 | 否 | 否 | 按使用量计费 |

数据要点: LangSmith是唯一将实时Token级别追踪与审计重放和合规仪表板相结合的产品。这使其在每一个决策都必须可辩护的受监管行业中具有独特定位。

一个值得注意的案例是JPMorgan Chase,该银行一直在测试LangSmith用于其内部LLM驱动的合规工具。该银行要求任何用于重新

更多来自 Towards AI

浏览器原生WebSocket协议:砍掉SDK依赖,语音AI延迟降至毫秒级AINews发现一个正在崛起的技术趋势:开发者们正绕过传统移动端SDK,通过构建自定义WebSocket协议,让网页浏览器直接连接Google Gemini Live。这一方案通常采用React作为前端、FastAPI作为异步后端,在语音流LangSmith Eval Gates:让LLM部署从“能用”进化到“可信”LangSmith,作为 LLM 应用的可观测性与评估平台,近日推出两大关键功能:Eval Gates 与高级提示版本管理。Eval Gates 允许开发者将评估标准直接嵌入部署流水线,自动拦截任何未达预设阈值的输出,从而将评估从被动的“成空间智能:下一代AI推理缺失的关键拼图AI社区长期以来盛赞大语言模型(LLM)的语言与逻辑能力,然而一个根本性缺陷始终存在:它们缺乏对物理空间的连贯理解。这一被称为“空间盲点”的鸿沟,在导航、操作和规划任务中暴露无遗——而这些任务连儿童都能轻松完成。AINews分析指出,根源在查看来源专题页Towards AI 已收录 86 篇文章

时间归档

June 20261304 篇已发布文章

延伸阅读

LangSmith Eval Gates:让LLM部署从“能用”进化到“可信”LangSmith 推出 Eval Gates 与高级提示版本管理,将评估从事后审计升级为强制部署关卡。这一变革直击提示漂移这一核心痛点,也标志着行业焦点正从模型原始能力转向运营可靠性。浏览器原生WebSocket协议:砍掉SDK依赖,语音AI延迟降至毫秒级一项新兴的WebSocket协议让浏览器直接连接Google Gemini Live,彻底摆脱SDK束缚,实现毫秒级实时语音AI交互。基于React与FastAPI构建的架构,正大幅降低专业级语音应用的开发门槛。空间智能:下一代AI推理缺失的关键拼图大语言模型能写诗、能编程,却无法可靠地将一把椅子放在桌子的左侧。AINews深度剖析这一“空间盲点”如何成为具身智能的瓶颈,并揭示认知地图与世界模型的新研究浪潮,如何有望赋予机器真正的空间感知能力。Anthropic的静默政变:安全战略如何从OpenAI手中夺走企业信任当Sam Altman登上杂志封面时,Dario Amodei悄然签下了《财富》500强合同。AINews独家揭秘:Anthropic如何以安全优先策略构筑企业信任护城河,从OpenAI手中撬走关键客户,并暴露了消费品牌在B2B市场中的脆弱

常见问题

这篇关于“LangSmith Audit Traces: Making Large Language Models Accountable for Regulated Industries”的文章讲了什么?

LangSmith, the observability platform built by the creators of LangChain, has introduced a tracing and callback system that fundamentally redefines how enterprises audit large lang…

从“How does LangSmith trace compare to OpenTelemetry for LLMs”看,这件事为什么值得关注?

LangSmith's audit-grade tracing system is built on a distributed tracing architecture that extends OpenTelemetry principles to the unique challenges of LLM workflows. At its core, the system uses a hierarchical span mode…

如果想继续追踪“Cost of LangSmith token-level tracing for large enterprises”,应该重点看什么?

可以继续查看本文整理的原文链接、相关文章和 AI 分析部分,快速了解事件背景、影响与后续进展。