技术深度解析
Moduna 的架构基于一个自定义事件管道,专为处理自主智能体的独特遥测数据而设计。与追踪HTTP请求和数据库查询的传统APM工具不同,Moduna 将智能体行为建模为一个由“动作”组成的有向无环图(DAG)。每个动作——无论是LLM调用、工具调用(例如网络搜索或文件读取)、条件分支还是重试——都被记录为一个带有丰富元数据的事件:输入/输出令牌、延迟、成本、错误代码以及父子关系。该平台使用基于 Apache Parquet 和 ClickHouse 的列式时序数据库来存储这些事件,从而实现对数百万个智能体会话的亚秒级查询。
一个关键创新是 Moduna 的“决策树回放”引擎。它序列化智能体在每个步骤的内部状态——包括提示上下文、中间推理(如果使用思维链)以及所选动作。开发者可以浏览时间线,在任何节点暂停,并检查确切的输入和输出。这类似于 Mixpanel 的用户会话回放,但针对的是非人类行为者。回放引擎还支持“假设”分支:开发者可以在决策点分叉一个会话,修改提示或工具选择,并模拟替代结果,而无需重新运行整个智能体。
在成本方面,Moduna 提供细粒度的令牌核算。它解析LLM API响应以提取提示和完成令牌,然后将其映射到来自 OpenAI、Anthropic 和 Google 等提供商的实时定价。该平台展示每任务成本、每工具调用成本,甚至每决策路径成本,使团队能够识别昂贵的失败模式——例如,由于提示有缺陷而反复调用缓慢、高成本API的智能体。
该领域一个相关的开源项目是 LangFuse(GitHub: langfuse/langfuse,8.5k星),它提供带有追踪和成本追踪的LLM可观测性。然而,LangFuse 专注于单个LLM调用,而非完整的智能体决策图。另一个是 Arize AI 的 Phoenix(GitHub: Arize-AI/phoenix,7.2k星),它提供LLM评估和追踪,但缺乏针对多步智能体的会话回放。Moduna 的差异化在于其智能体原生的数据模型和回放功能。
| 特性 | Moduna | LangFuse | Arize Phoenix | 传统APM (Datadog) |
|---|---|---|---|---|
| 智能体决策树回放 | ✅ 完整 | ❌ | ❌ | ❌ |
| 每步令牌成本追踪 | ✅ | ✅ | ✅ | ❌ |
| 多智能体会话关联 | ✅ | ❌ | ❌ | ❌ |
| “假设”模拟 | ✅ | ❌ | ❌ | ❌ |
| 与 LangChain/AutoGPT 集成 | ✅ | ✅ | ✅ | ❌ |
| 智能体漂移实时告警 | ✅ | ❌ | 部分 | ❌ |
数据要点: Moduna 的功能集专为智能体工作流量身定制,而现有的LLM可观测性工具和传统APM缺乏决策树回放和多智能体关联能力。这一差距证明了 Moduna 作为一个独立类别的存在价值。
关键参与者与案例研究
Moduna 由前 Mixpanel 和 Datadog 的工程负责人团队创立,他们在产品分析和基础设施监控方面拥有深厚的领域专业知识。CEO Sarah Chen 曾领导 Mixpanel 的实时分析团队,负责构建Web应用的会话回放引擎。CTO Marcus Rivera 曾是 Datadog 专注于分布式追踪的高级工程师。他们的综合经验直接塑造了 Moduna 的架构。
早期企业用户包括 Finova,一家部署AI智能体进行贷款承销的金融科技公司。Finova 的智能体每月处理5万份申请,每份申请需要向信用机构、欺诈数据库和内部风险模型进行15-20次工具调用。在使用 Moduna 之前,调试一个失败的申请需要4小时的日志挖掘。借助 Moduna 的会话回放,他们将平均解决时间(MTTR)从4小时缩短至45分钟。他们还发现,智能体12%的API成本来自重复的信用机构查询——这一修复每月节省了8000美元。
另一个案例是 CodeForge,一家使用智能体进行自动化代码审查的初创公司。他们的智能体分析拉取请求、运行静态分析并提出修复建议。CodeForge 使用 Moduna 追踪智能体的“幻觉”率——即智能体建议错误代码更改的实例。通过回放会话,他们发现智能体误解了某些 TypeScript 泛型,从而对提示进行了优化,使幻觉率降低了22%。
竞争解决方案正在涌现。LangSmith(由 LangChain 开发)提供基本的智能体追踪,但缺乏成本分析和回放功能。Weights & Biases Prompts 提供LLM监控,但不提供智能体级别的DAG可视化。New Relic 和 Datadog 已宣布推出LLM监控功能,但它们将智能体调用视为普通的API请求,忽略了决策上下文。
| 公司 | 产品 | 智能体原生? | 会话回放? | 成本追踪? | 定价模式 |
|---|---|---|---|---|---|
| Moduna | Moduna Agent Analytics | ✅ | ✅ | ✅ | 按会话量订阅 |
| LangChain | LangSmith | 部分 | ❌ | ❌ | 按调用量付费 |
| Weights & Biases | Prompts | ❌ | ❌ | ✅ | 按席位订阅 |
| Datadog | LLM Observability | ❌ | ❌ | 部分 | 按数据量付费 |