Data Prepper 迁移至 OpenSearch，标志可观测性管道架构重大转向

2026年4月22日 10:36 AINews GitHub April 2026

⭐ 37

来源：GitHub 归档：April 2026

Open Distro for Elasticsearch Data Prepper 代码库正式归档，标志着开源可观测性领域一次关键整合。该项目整体迁移至 OpenSearch Project，意味着其数据摄取战略趋于成熟，Data Prepper 正式成为处理日志、追踪与指标数据的官方高性能管道。此举解决了社区长期存在的碎片化问题。

Data Prepper 项目最初作为 Open Distro for Elasticsearch 计划的一部分开发，现已完成向 OpenSearch Project 的全面迁移，其原始 GitHub 代码库已归档。该组件是一个关键的数据摄取与预处理引擎，专为处理来自 Fluentd、Kafka、S3 等多种来源的海量遥测数据（日志、指标、追踪）而设计。它能在将处理后的数据交付至 OpenSearch 集群进行分析和可视化之前，执行实时转换、丰富和路由。

此次迁移远不止是简单的代码库转移；它代表了在 AWS 支持的 OpenSearch 体系下的一次战略整合，旨在构建一个统一、端到端的可观测性套件，以直接与 Elastic Stack 竞争。通过将 Data Prepper 确立为 OpenSearch 生态内的标准摄取层，该项目有望获得更集中的开发资源、更紧密的集成以及更清晰的未来发展路线图。对于依赖 OpenSearch 进行日志分析、应用性能监控和安全信息与事件管理的企业而言，这意味着一个更稳定、更受支持且功能更集成的技术栈选择。

技术深度解析

Data Prepper 的核心价值在于其架构，该架构专为满足可观测性数据管道的特定需求而设计。与 Apache Flink 这类提供极大灵活性但需要为可观测性用例进行大量配置的通用流处理器不同，Data Prepper 是专用构建的。其管道模型通过 YAML 配置定义，其中 Source、一系列 Processor 和 Sink 被链接在一起。

其核心是一个多线程、缓冲区管理的执行引擎。诸如 `http_source` 或 `otlp_source`（用于 OpenTelemetry）等源会摄取数据并将其放入内存缓冲区——这是吸收流量峰值的关键设计选择。作为 Java 插件的 Processor 则对来自此缓冲区的一批记录进行操作。关键的内置处理器包括用于解析非结构化日志行的 `grok`、用于时间戳标准化的 `date`、用于过滤的 `drop_events` 以及用于字段操作的 `mutate`。插件架构是其最大优势；组织可以编译自定义处理器，以便从内部 API 进行数据丰富或实现特定的合规逻辑。

性能是首要指标。工程团队一直专注于在可接受的延迟下优化吞吐量。通常在 AWS 基础设施（如 m5.xlarge 实例）上进行的基准测试证明了其能力。一个使用 `http_source` 摄取 JSON 日志、一个简单过滤器处理器和一个 `opensearch_sink` 的典型管道，每个节点可以维持每秒数万事件的吞吐量，在正常负载下端到端延迟低于 100 毫秒。

| 管道配置 | 平均吞吐量 (事件/秒/节点) | P99 延迟 (毫秒) | CPU 利用率 |
|---|---|---|---|
| HTTP -> Grok 解析 -> OpenSearch | 15,000 | 85 | 65% |
| OTLP -> 追踪对等转发 -> OpenSearch | 8,000 | 120 | 70% |
| Kafka -> 聚合 (1分钟窗口) -> OpenSearch | 5,000 | 250 | 60% |

数据要点： 基准测试表清晰地揭示了基于处理复杂度的吞吐量与延迟权衡。简单的解析管道能以低延迟实现高吞吐量，而像聚合这样的有状态操作则会显著增加延迟。这就要求精心设计管道，将延迟敏感的数据（例如错误警报）与需要重度转换的数据分开路由。

活跃的代码库 `github.com/opensearch-project/data-prepper` 在迁移后活动有所增加。最近的提交侧重于增强 OpenTelemetry (OTLP) 源以提供原生 APM 支持、提高 Grok 处理器的效率，以及添加面向 OpenSearch 之外目的地的 Sink 连接器，例如用于数据湖归档的 Amazon S3。该项目的健康状况现在与 OpenSearch 的发布周期内在绑定。

关键参与者与案例研究

可观测性管道领域竞争激烈，Data Prepper 占据了一个特定的生态位：开源、OpenSearch 优先的选择。其开发主要由亚马逊云科技工程师主导，社区贡献来自那些已标准化使用 OpenSearch 的企业，例如 Netflix、SAP 和 FINRA，它们将其用于内部安全日志处理。

与替代方案进行直接比较对于理解其定位至关重要：

| 解决方案 | 主要支持者 | 核心优势 | 理想用例 | 许可证 |
|---|---|---|---|---|
| Data Prepper | AWS / OpenSearch Project | 与 OpenSearch 紧密集成，简单的 YAML 配置 | 以 OpenSearch 为中心的可观测性技术栈 | Apache 2.0 |
| Vector (由 Datadog 开发) | Datadog / 社区 | 极致性能 (Rust)，丰富的转换功能 | 高吞吐量、多目的地的管道 | Apache 2.0 |
| Fluentd | 云原生计算基金会 | 庞大的插件生态系统，Kubernetes 原生 | 异构的 CNCF 环境 | Apache 2.0 |
| Logstash | Elastic NV | 成熟度高，与 Elasticsearch 深度集成 | 现有的 Elastic Stack (ELK) 部署 | Elastic License / SSPL |
| Grafana Agent | Grafana Labs | 内置指标、追踪、日志；Prometheus 原生 | Grafana Cloud/Enterprise 生态系统 | AGPLv3 |

数据要点： 竞争格局由战略联盟定义。Data Prepper 的优势不在于原始性能或插件的广度，而在于其作为 OpenSearch 官方认可的摄取层的角色。其未来不在于在基准测试中击败 Vector，而在于成为 OpenSearch 体验中不可分割、经过优化的组成部分。

一个值得注意的案例研究来自一家中型 SaaS 公司，该公司从自管理的 Fluentd + 自定义脚本设置迁移到了 Data Prepper。他们的目标是在索引前降低解析和丰富应用日志的运维开销。通过实施使用 Kafka 源和自定义处理器（用于从 Redis 缓存中获取客户层级信息来丰富日志）的 Data Prepper，他们报告称索引数据量（通过智能过滤）减少了 40%，平均检测时间减少了 30%。

时间归档

常见问题

GitHub 热点“Data Prepper's Migration to OpenSearch Signals Major Shift in Observability Pipeline Architecture”主要讲了什么？

The Data Prepper project, originally developed as part of the Open Distro for Elasticsearch initiative, has completed its transition to the OpenSearch Project, with its original Gi…

这个 GitHub 项目在“Data Prepper vs Logstash performance benchmark”上为什么会引发关注？

Data Prepper's core value proposition lies in its architecture, engineered for the specific demands of observability data pipelines. Unlike general-purpose stream processors like Apache Flink, which offer immense flexibi…

从“how to migrate Open Distro Data Prepper to OpenSearch project”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 37，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。

Data Prepper 迁移至 OpenSearch，标志可观测性管道架构重大转向

技术深度解析

关键参与者与案例研究

更多来自 GitHub

时间归档

延伸阅读

常见问题