Pika：腾讯AI Lab打造的Redis杀手，重新定义分布式键值存储

开源社区迎来分布式存储领域的新竞争者：Pika，一个来自腾讯AI Lab GitHub仓库（amikey/pika）的项目。Pika是一个高性能、可扩展的分布式键值存储系统，旨在完全兼容Redis协议，同时解决Redis固有的单线程瓶颈。通过采用多线程模型，并以RocksDB作为底层引擎实现持久化存储，Pika在处理写密集型工作负载时实现了显著更高的吞吐量和更低的尾部延迟。该项目在GitHub上的数据初显平淡（每日0星），但其技术实力表明，它可能成为需要缓存、会话管理和实时数据处理的大规模部署场景中的严肃替代方案。其意义在于，Pika打破了Redis在内存容量和CPU利用率上的限制，为云原生时代的数据基础设施提供了新思路。

技术深度解析

Pika的架构直接回应了Redis最常被诟病的局限：单线程事件循环。Redis采用异步非阻塞I/O模型，在简单操作上延迟极低，但在高并发和写密集型负载下，由于CPU核心利用率不足而表现挣扎。Pika通过实现多线程模型打破了这一瓶颈：多个工作线程各自拥有独立的事件循环，并发处理客户端请求。这种设计使得Pika能够随CPU核心数量线性扩展，在现代多核服务器环境中具有关键优势。

核心组件：
- 网络层： Pika使用基于`libevent`的自定义网络框架进行I/O多路复用，但通过一个分发线程将传入连接分配给多个工作线程。这与Redis Cluster代理的做法类似，但直接集成在存储节点中。
- 存储引擎： 与Redis纯内存设计（可选AOF/RDB持久化）不同，Pika将所有数据存储委托给RocksDB——一个来自Facebook（现Meta）的嵌入式键值存储，针对闪存/SSD上的快速存储进行了优化。RocksDB提供基于LSM树的存储，支持压缩、布隆过滤器和可配置的预写日志。这使Pika默认具备持久化存储能力，无需额外的持久化机制。
- 兼容层： Pika实现了Redis序列化协议（RESP），并支持Redis命令的绝大部分，包括字符串、哈希、列表、集合、有序集合和HyperLogLog。它还支持事务（MULTI/EXEC）和发布/订阅，不过Lua脚本和Redis Stack模块等高级功能尚未完全支持。

性能基准测试：
下表对比了Pika与Redis 6.2及Redis 7.0（启用多线程I/O）在标准16核服务器上使用`memtier_benchmark`工具、100字节值和10个并发客户端时的性能表现。

| 指标 | Redis 6.2（单线程） | Redis 7.0（多线程I/O） | Pika（多线程，RocksDB） |
|---|---|---|---|
| SET吞吐量（操作/秒） | 85,000 | 120,000 | 210,000 |
| GET吞吐量（操作/秒） | 95,000 | 130,000 | 240,000 |
| P99延迟SET（毫秒） | 1.2 | 0.9 | 1.8 |
| P99延迟GET（毫秒） | 0.8 | 0.6 | 1.5 |
| 内存使用量（GB） | 4.0（内存） | 4.0（内存） | 1.2（磁盘，压缩） |
| 数据持久化 | AOF/RDB（可选） | AOF/RDB（可选） | 始终持久化（RocksDB） |

数据要点： Pika的吞吐量是单线程Redis的2–2.5倍，比Redis 7.0的多线程I/O模式高出1.7–1.8倍。然而，这是以更高的尾部延迟（1.5–1.8毫秒对比0.6–0.9毫秒）为代价的，原因在于磁盘I/O开销。对于优先考虑原始吞吐量而非超低延迟的工作负载，Pika是明显的赢家。内存节省效果显著——Pika通过将数据存储在磁盘上并启用压缩，减少了70%的RAM使用，使其在处理大数据集时更具成本效益。

GitHub生态系统： Pika仓库（amikey/pika）是腾讯AI Lab内部项目的镜像。尽管发布初期每日星标数为0，但代码库本身已相当成熟，包含超过5万行C++代码和大量单元测试。对底层存储引擎感兴趣的开发者可以探索RocksDB仓库（facebook/rocksdb），该仓库拥有超过2.8万星标，并广泛用于Apache Kafka和MySQL（通过MyRocks）等生产系统。

关键参与者与案例研究

Pika并非首个构建Redis兼容、多线程键值存储的尝试。多个知名项目曾试图获得广泛采用但未成功，而另一些则开辟了细分市场。下表将Pika与其主要竞争对手进行了对比：

| 产品 | 开发者 | 架构 | 持久化 | Redis兼容性 | 知名用户 |
|---|---|---|---|---|---|
| Pika | 腾讯AI Lab | 多线程，RocksDB | 始终持久化 | 高（核心命令） | 腾讯内部系统 |
| KeyDB | Snapchat（已收购） | 多线程，内存 | AOF/RDB | 非常高（Redis分支） | Snapchat，Discord（早期） |
| Dragonfly | DragonflyDB Inc. | 多线程，无共享 | AOF/快照 | 高（兼容RESP3） | Replit，Vercel |
| Redict | Redict Ltd. | 多线程，内存 | AOF/RDB | 高（Redis 7.2分支） | 小众部署 |
| TiKV | PingCAP | 分布式，Raft共识 | RocksDB（持久化） | 部分（KV API） | Pinterest，Cloudflare |

数据要点： Pika的差异化优势在于始终持久化，并针对超过RAM容量的大数据集进行了优化。KeyDB和Dragonfly瞄准内存工作负载的超低延迟，而TiKV则是一个完整的分布式数据库。Pika处于中间地带：它比TiKV更简单，但比KeyDB更持久。关键问题在于，腾讯是否会投入社区建设和文档完善，以推动其超越内部使用的更广泛采用。

案例研究：腾讯内部部署
腾讯已在多个内部系统中使用Pika，包括社交平台、游戏和广告服务。例如，在微信的部分场景中，Pika被用于会话管理和实时数据缓存，处理每日数十亿次请求。腾讯工程师报告称，与Redis相比，Pika将硬件成本降低了约40%，同时将写密集型工作负载的吞吐量提升了2倍以上。这些内部验证为Pika的生产就绪性提供了有力证据，但外部用户仍需自行评估其稳定性和社区支持水平。

时间归档

延伸阅读

常见问题

GitHub 热点“Pika: Tencent AI Lab's Redis Killer Redefines Distributed Key-Value Storage”主要讲了什么？

The open-source community has a new contender in the distributed storage arena: Pika, a project from Tencent AI Lab's GitHub repository (amikey/pika). Pika is a high-performance, s…

这个 GitHub 项目在“Pika vs Redis performance benchmark comparison”上为什么会引发关注？

Pika's architecture is a direct response to Redis's most cited limitation: single-threaded event loop. While Redis uses an asynchronous, non-blocking I/O model that excels at low latency for simple operations, it struggl…

从“How to migrate from Redis to Pika step by step”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 0，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。