Data Prepper 迁移至 OpenSearch,标志可观测性管道架构重大转向

GitHub April 2026
⭐ 37
来源:GitHub归档:April 2026
Open Distro for Elasticsearch Data Prepper 代码库正式归档,标志着开源可观测性领域一次关键整合。该项目整体迁移至 OpenSearch Project,意味着其数据摄取战略趋于成熟,Data Prepper 正式成为处理日志、追踪与指标数据的官方高性能管道。此举解决了社区长期存在的碎片化问题。

Data Prepper 项目最初作为 Open Distro for Elasticsearch 计划的一部分开发,现已完成向 OpenSearch Project 的全面迁移,其原始 GitHub 代码库已归档。该组件是一个关键的数据摄取与预处理引擎,专为处理来自 Fluentd、Kafka、S3 等多种来源的海量遥测数据(日志、指标、追踪)而设计。它能在将处理后的数据交付至 OpenSearch 集群进行分析和可视化之前,执行实时转换、丰富和路由。

此次迁移远不止是简单的代码库转移;它代表了在 AWS 支持的 OpenSearch 体系下的一次战略整合,旨在构建一个统一、端到端的可观测性套件,以直接与 Elastic Stack 竞争。通过将 Data Prepper 确立为 OpenSearch 生态内的标准摄取层,该项目有望获得更集中的开发资源、更紧密的集成以及更清晰的未来发展路线图。对于依赖 OpenSearch 进行日志分析、应用性能监控和安全信息与事件管理的企业而言,这意味着一个更稳定、更受支持且功能更集成的技术栈选择。

技术深度解析

Data Prepper 的核心价值在于其架构,该架构专为满足可观测性数据管道的特定需求而设计。与 Apache Flink 这类提供极大灵活性但需要为可观测性用例进行大量配置的通用流处理器不同,Data Prepper 是专用构建的。其管道模型通过 YAML 配置定义,其中 Source、一系列 ProcessorSink 被链接在一起。

其核心是一个多线程、缓冲区管理的执行引擎。诸如 `http_source` 或 `otlp_source`(用于 OpenTelemetry)等源会摄取数据并将其放入内存缓冲区——这是吸收流量峰值的关键设计选择。作为 Java 插件的 Processor 则对来自此缓冲区的一批记录进行操作。关键的内置处理器包括用于解析非结构化日志行的 `grok`、用于时间戳标准化的 `date`、用于过滤的 `drop_events` 以及用于字段操作的 `mutate`。插件架构是其最大优势;组织可以编译自定义处理器,以便从内部 API 进行数据丰富或实现特定的合规逻辑。

性能是首要指标。工程团队一直专注于在可接受的延迟下优化吞吐量。通常在 AWS 基础设施(如 m5.xlarge 实例)上进行的基准测试证明了其能力。一个使用 `http_source` 摄取 JSON 日志、一个简单过滤器处理器和一个 `opensearch_sink` 的典型管道,每个节点可以维持每秒数万事件的吞吐量,在正常负载下端到端延迟低于 100 毫秒。

| 管道配置 | 平均吞吐量 (事件/秒/节点) | P99 延迟 (毫秒) | CPU 利用率 |
|---|---|---|---|
| HTTP -> Grok 解析 -> OpenSearch | 15,000 | 85 | 65% |
| OTLP -> 追踪对等转发 -> OpenSearch | 8,000 | 120 | 70% |
| Kafka -> 聚合 (1分钟窗口) -> OpenSearch | 5,000 | 250 | 60% |

数据要点: 基准测试表清晰地揭示了基于处理复杂度的吞吐量与延迟权衡。简单的解析管道能以低延迟实现高吞吐量,而像聚合这样的有状态操作则会显著增加延迟。这就要求精心设计管道,将延迟敏感的数据(例如错误警报)与需要重度转换的数据分开路由。

活跃的代码库 `github.com/opensearch-project/data-prepper` 在迁移后活动有所增加。最近的提交侧重于增强 OpenTelemetry (OTLP) 源以提供原生 APM 支持、提高 Grok 处理器的效率,以及添加面向 OpenSearch 之外目的地的 Sink 连接器,例如用于数据湖归档的 Amazon S3。该项目的健康状况现在与 OpenSearch 的发布周期内在绑定。

关键参与者与案例研究

可观测性管道领域竞争激烈,Data Prepper 占据了一个特定的生态位:开源、OpenSearch 优先的选择。其开发主要由亚马逊云科技工程师主导,社区贡献来自那些已标准化使用 OpenSearch 的企业,例如 Netflix、SAP 和 FINRA,它们将其用于内部安全日志处理。

与替代方案进行直接比较对于理解其定位至关重要:

| 解决方案 | 主要支持者 | 核心优势 | 理想用例 | 许可证 |
|---|---|---|---|---|
| Data Prepper | AWS / OpenSearch Project | 与 OpenSearch 紧密集成,简单的 YAML 配置 | 以 OpenSearch 为中心的可观测性技术栈 | Apache 2.0 |
| Vector (由 Datadog 开发) | Datadog / 社区 | 极致性能 (Rust),丰富的转换功能 | 高吞吐量、多目的地的管道 | Apache 2.0 |
| Fluentd | 云原生计算基金会 | 庞大的插件生态系统,Kubernetes 原生 | 异构的 CNCF 环境 | Apache 2.0 |
| Logstash | Elastic NV | 成熟度高,与 Elasticsearch 深度集成 | 现有的 Elastic Stack (ELK) 部署 | Elastic License / SSPL |
| Grafana Agent | Grafana Labs | 内置指标、追踪、日志;Prometheus 原生 | Grafana Cloud/Enterprise 生态系统 | AGPLv3 |

数据要点: 竞争格局由战略联盟定义。Data Prepper 的优势不在于原始性能或插件的广度,而在于其作为 OpenSearch 官方认可的摄取层的角色。其未来不在于在基准测试中击败 Vector,而在于成为 OpenSearch 体验中不可分割、经过优化的组成部分。

一个值得注意的案例研究来自一家中型 SaaS 公司,该公司从自管理的 Fluentd + 自定义脚本设置迁移到了 Data Prepper。他们的目标是在索引前降低解析和丰富应用日志的运维开销。通过实施使用 Kafka 源和自定义处理器(用于从 Redis 缓存中获取客户层级信息来丰富日志)的 Data Prepper,他们报告称索引数据量(通过智能过滤)减少了 40%,平均检测时间减少了 30%。

更多来自 GitHub

Linearmouse:这款开源Mac工具正在重新定义输入精度Linearmouse已成为macOS用户寻求对鼠标和触控板体验进行精细控制的杰出工具。与苹果原生设置仅提供单一的滚动方向切换开关和基础的跟踪速度滑块等有限自定义选项不同,Linearmouse提供了一个图形界面,用于调整指针加速曲线、按应Cursor插件规范:重塑AI代码编辑器生态的隐藏引擎Cursor,这款在开发者中迅速崛起的AI原生代码编辑器,通过发布正式插件规范与一系列官方插件,迈出了走向平台成熟度的决定性一步。该规范定义了一套清晰的API,用于构建与Cursor AI功能深度集成的扩展——包括代码补全、内联聊天、智能体Compound协议:链上借贷市场无可争议的范本Compound协议由Robert Leshner与Geoffrey Hayes于2018年推出,是无需许可的加密借贷与借款的基础层。它通过一套基于以太坊的非托管智能合约运作,为特定资产创建货币市场。用户供应资产以赚取浮动利息,或以其供应的查看来源专题页GitHub 已收录 2368 篇文章

时间归档

April 20263042 篇已发布文章

延伸阅读

OpenSearch Data Prepper:驱动现代可观测性的高吞吐引擎OpenSearch Data Prepper 已成为现代可观测性技术栈中至关重要却常被忽视的组件。作为一款专为高吞吐设计的数据管道引擎,它标志着 OpenSearch 生态旨在掌控数据全生命周期的战略布局。本文深度剖析其能否挑战传统 ETOpenSearch的Apache 2.0豪赌:社区治理能否跑赢Elastic的统治地位?诞生于开源许可分歧的OpenSearch,是一场关于社区治理与商业可行性的根本性实验。本文深度探讨:这个由社区驱动的分支项目,能否超越其被动起源,在关键的企业搜索与可观测性市场中,构建一个持久且创新的替代方案,从而挑战其母体项目?Haystack Core Integrations:企业级RAG管线的模块化基石Haystack官方扩展仓库haystack-core-integrations正悄然成为构建生产级RAG管线的关键基础设施层。本文深度解析其插件化设计、模块化文档存储的战略意义,以及对未来企业搜索格局的深远影响。OpenSearch-CLI:企业搜索运维的静默核武OpenSearch-CLI项目正悄然重塑企业搜索基础设施的交互范式。这款工具超越图形化仪表盘,为开发者和系统管理员提供可脚本化、精准控制OpenSearch集群的能力,从根本上改变了运维工作流与自动化潜力。

常见问题

GitHub 热点“Data Prepper's Migration to OpenSearch Signals Major Shift in Observability Pipeline Architecture”主要讲了什么?

The Data Prepper project, originally developed as part of the Open Distro for Elasticsearch initiative, has completed its transition to the OpenSearch Project, with its original Gi…

这个 GitHub 项目在“Data Prepper vs Logstash performance benchmark”上为什么会引发关注?

Data Prepper's core value proposition lies in its architecture, engineered for the specific demands of observability data pipelines. Unlike general-purpose stream processors like Apache Flink, which offer immense flexibi…

从“how to migrate Open Distro Data Prepper to OpenSearch project”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 37,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。