Data Prepper 迁移至 OpenSearch,标志可观测性管道架构重大转向

GitHub April 2026
⭐ 37
来源:GitHub归档:April 2026
Open Distro for Elasticsearch Data Prepper 代码库正式归档,标志着开源可观测性领域一次关键整合。该项目整体迁移至 OpenSearch Project,意味着其数据摄取战略趋于成熟,Data Prepper 正式成为处理日志、追踪与指标数据的官方高性能管道。此举解决了社区长期存在的碎片化问题。

Data Prepper 项目最初作为 Open Distro for Elasticsearch 计划的一部分开发,现已完成向 OpenSearch Project 的全面迁移,其原始 GitHub 代码库已归档。该组件是一个关键的数据摄取与预处理引擎,专为处理来自 Fluentd、Kafka、S3 等多种来源的海量遥测数据(日志、指标、追踪)而设计。它能在将处理后的数据交付至 OpenSearch 集群进行分析和可视化之前,执行实时转换、丰富和路由。

此次迁移远不止是简单的代码库转移;它代表了在 AWS 支持的 OpenSearch 体系下的一次战略整合,旨在构建一个统一、端到端的可观测性套件,以直接与 Elastic Stack 竞争。通过将 Data Prepper 确立为 OpenSearch 生态内的标准摄取层,该项目有望获得更集中的开发资源、更紧密的集成以及更清晰的未来发展路线图。对于依赖 OpenSearch 进行日志分析、应用性能监控和安全信息与事件管理的企业而言,这意味着一个更稳定、更受支持且功能更集成的技术栈选择。

技术深度解析

Data Prepper 的核心价值在于其架构,该架构专为满足可观测性数据管道的特定需求而设计。与 Apache Flink 这类提供极大灵活性但需要为可观测性用例进行大量配置的通用流处理器不同,Data Prepper 是专用构建的。其管道模型通过 YAML 配置定义,其中 Source、一系列 ProcessorSink 被链接在一起。

其核心是一个多线程、缓冲区管理的执行引擎。诸如 `http_source` 或 `otlp_source`(用于 OpenTelemetry)等源会摄取数据并将其放入内存缓冲区——这是吸收流量峰值的关键设计选择。作为 Java 插件的 Processor 则对来自此缓冲区的一批记录进行操作。关键的内置处理器包括用于解析非结构化日志行的 `grok`、用于时间戳标准化的 `date`、用于过滤的 `drop_events` 以及用于字段操作的 `mutate`。插件架构是其最大优势;组织可以编译自定义处理器,以便从内部 API 进行数据丰富或实现特定的合规逻辑。

性能是首要指标。工程团队一直专注于在可接受的延迟下优化吞吐量。通常在 AWS 基础设施(如 m5.xlarge 实例)上进行的基准测试证明了其能力。一个使用 `http_source` 摄取 JSON 日志、一个简单过滤器处理器和一个 `opensearch_sink` 的典型管道,每个节点可以维持每秒数万事件的吞吐量,在正常负载下端到端延迟低于 100 毫秒。

| 管道配置 | 平均吞吐量 (事件/秒/节点) | P99 延迟 (毫秒) | CPU 利用率 |
|---|---|---|---|
| HTTP -> Grok 解析 -> OpenSearch | 15,000 | 85 | 65% |
| OTLP -> 追踪对等转发 -> OpenSearch | 8,000 | 120 | 70% |
| Kafka -> 聚合 (1分钟窗口) -> OpenSearch | 5,000 | 250 | 60% |

数据要点: 基准测试表清晰地揭示了基于处理复杂度的吞吐量与延迟权衡。简单的解析管道能以低延迟实现高吞吐量,而像聚合这样的有状态操作则会显著增加延迟。这就要求精心设计管道,将延迟敏感的数据(例如错误警报)与需要重度转换的数据分开路由。

活跃的代码库 `github.com/opensearch-project/data-prepper` 在迁移后活动有所增加。最近的提交侧重于增强 OpenTelemetry (OTLP) 源以提供原生 APM 支持、提高 Grok 处理器的效率,以及添加面向 OpenSearch 之外目的地的 Sink 连接器,例如用于数据湖归档的 Amazon S3。该项目的健康状况现在与 OpenSearch 的发布周期内在绑定。

关键参与者与案例研究

可观测性管道领域竞争激烈,Data Prepper 占据了一个特定的生态位:开源、OpenSearch 优先的选择。其开发主要由亚马逊云科技工程师主导,社区贡献来自那些已标准化使用 OpenSearch 的企业,例如 Netflix、SAP 和 FINRA,它们将其用于内部安全日志处理。

与替代方案进行直接比较对于理解其定位至关重要:

| 解决方案 | 主要支持者 | 核心优势 | 理想用例 | 许可证 |
|---|---|---|---|---|
| Data Prepper | AWS / OpenSearch Project | 与 OpenSearch 紧密集成,简单的 YAML 配置 | 以 OpenSearch 为中心的可观测性技术栈 | Apache 2.0 |
| Vector (由 Datadog 开发) | Datadog / 社区 | 极致性能 (Rust),丰富的转换功能 | 高吞吐量、多目的地的管道 | Apache 2.0 |
| Fluentd | 云原生计算基金会 | 庞大的插件生态系统,Kubernetes 原生 | 异构的 CNCF 环境 | Apache 2.0 |
| Logstash | Elastic NV | 成熟度高,与 Elasticsearch 深度集成 | 现有的 Elastic Stack (ELK) 部署 | Elastic License / SSPL |
| Grafana Agent | Grafana Labs | 内置指标、追踪、日志;Prometheus 原生 | Grafana Cloud/Enterprise 生态系统 | AGPLv3 |

数据要点: 竞争格局由战略联盟定义。Data Prepper 的优势不在于原始性能或插件的广度,而在于其作为 OpenSearch 官方认可的摄取层的角色。其未来不在于在基准测试中击败 Vector,而在于成为 OpenSearch 体验中不可分割、经过优化的组成部分。

一个值得注意的案例研究来自一家中型 SaaS 公司,该公司从自管理的 Fluentd + 自定义脚本设置迁移到了 Data Prepper。他们的目标是在索引前降低解析和丰富应用日志的运维开销。通过实施使用 Kafka 源和自定义处理器(用于从 Redis 缓存中获取客户层级信息来丰富日志)的 Data Prepper,他们报告称索引数据量(通过智能过滤)减少了 40%,平均检测时间减少了 30%。

更多来自 GitHub

Claude Code 的上下文协议如何破解 AI 编程的最大瓶颈GitHub 上的 zilliztech/claude-context 仓库标志着 AI 辅助编程领域一次重要的工程转向。与其等待基础模型的上下文窗口以指数级扩展——这一过程受制于注意力机制的二次方成本——该项目提供了一种当下即可用的、务实Fetch.ai AEA框架:构筑自主经济,从每一个智能体开始Fetch.ai的Agents-AEA(自主经济智能体)框架是一个雄心勃勃的开源项目,旨在标准化并简化能够参与去中心化经济的智能体的开发。它定位于人工智能与区块链的交汇点,为开发者提供了一套模块化工具包,用以构建能够相互发现、协商并在无中心Rebase困境:个人Linux内核分支如何挑战开源协作范式由开发者Chris Hewitt(chewitt)维护的chewitt/linux GitHub仓库,为现代内核开发实践提供了一个引人深思的案例。与稳定的上游分支不同,这个个人分支明确标注着警告:“警告:我会对我的分支进行变基!”这一声明昭查看来源专题页GitHub 已收录 914 篇文章

时间归档

April 20262025 篇已发布文章

延伸阅读

OpenSearch Data Prepper:驱动现代可观测性的高吞吐引擎OpenSearch Data Prepper 已成为现代可观测性技术栈中至关重要却常被忽视的组件。作为一款专为高吞吐设计的数据管道引擎,它标志着 OpenSearch 生态旨在掌控数据全生命周期的战略布局。本文深度剖析其能否挑战传统 ETOpenSearch的Apache 2.0豪赌:社区治理能否跑赢Elastic的统治地位?诞生于开源许可分歧的OpenSearch,是一场关于社区治理与商业可行性的根本性实验。本文深度探讨:这个由社区驱动的分支项目,能否超越其被动起源,在关键的企业搜索与可观测性市场中,构建一个持久且创新的替代方案,从而挑战其母体项目?OpenSearch-CLI:企业搜索运维的静默核武OpenSearch-CLI项目正悄然重塑企业搜索基础设施的交互范式。这款工具超越图形化仪表盘,为开发者和系统管理员提供可脚本化、精准控制OpenSearch集群的能力,从根本上改变了运维工作流与自动化潜力。Claude Code 的上下文协议如何破解 AI 编程的最大瓶颈Zilliz 近日开源了 Model Context Protocol (MCP) 服务器,使 Claude Code 能够搜索和理解整个代码库,而不仅仅是当前文件。这项工程方案直指当前 AI 编程工具最显著的短板——有限的上下文窗口。通过

常见问题

GitHub 热点“Data Prepper's Migration to OpenSearch Signals Major Shift in Observability Pipeline Architecture”主要讲了什么?

The Data Prepper project, originally developed as part of the Open Distro for Elasticsearch initiative, has completed its transition to the OpenSearch Project, with its original Gi…

这个 GitHub 项目在“Data Prepper vs Logstash performance benchmark”上为什么会引发关注?

Data Prepper's core value proposition lies in its architecture, engineered for the specific demands of observability data pipelines. Unlike general-purpose stream processors like Apache Flink, which offer immense flexibi…

从“how to migrate Open Distro Data Prepper to OpenSearch project”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 37,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。