海量数据斥资9600万美元押注HTAP与多模态AI：技术突破还是资本叙事？

海量数据，一家专注于数据库解决方案的中国上市科技公司，宣布通过非公开发行股票募集7亿元人民币（约合9600万美元），用于开发混合事务/分析处理（HTAP）数据库及多模态AI能力。此举发生在公司连续四年净亏损之后，期间其从资本市场累计融资超过12亿元人民币（1.65亿美元），而仅派发了1600万元人民币（220万美元）的股息。这种资本输入与股东回报之间的严重失衡，引发了投资者的广泛质疑。公司股价表现逊于大盘，此次新一轮融资被许多人视为潜在的救命稻草，而非战略性的跨越。

技术深度解析

海量数据押注HTAP（混合事务/分析处理）与多模态AI，代表着两个高难度技术领域的交汇。HTAP数据库旨在消除传统在线事务处理（OLTP）与在线分析处理（OLAP）系统之间的隔阂，使单一数据库能够同时处理高频、低延迟的事务操作，以及对同一数据集执行复杂的分析查询。这通常通过结合面向行的存储（用于事务）与面向列的存储（用于分析）的架构来实现，并常借助内存计算和Raft或Paxos等分布式共识协议。

从工程角度看，核心挑战在于：在保障事务ACID（原子性、一致性、隔离性、持久性）特性的同时，还要支持分析型工作负载常见的大规模扫描与聚合操作。大多数成功的HTAP实现，例如PingCAP的TiDB，都采用了两层架构：一个用于事务数据的TiKV键值存储，以及一个用于分析的TiFlash列式引擎，两者通过基于Raft的复制机制同步。海量数据的方法，基于其现有的Vastbase产品线，很可能是在其兼容PostgreSQL的引擎基础上，扩展出一个独立的分析处理单元。然而，该公司并未公开披露详细的架构蓝图，这引发了对其技术深度的担忧。

在多模态AI方面，该公司计划将文本、图像乃至视频处理能力集成到其数据库产品中。这在技术上极具野心，因为多模态模型——如OpenAI的GPT-4V或Google的Gemini——在训练和推理阶段都需要海量的计算资源。例如，训练一个拥有1000亿参数的多模态模型，仅GPU计算成本就可能高达数千万美元。海量数据此次募集的9600万美元虽然数额不小，但很快就会被此类成本消耗殆尽。该公司要么需要从零开始自研模型（成本高得令人望而却步），要么对现有的开源模型（如Meta的Llama 3或中国的开源模型Qwen-VL）进行微调。一个更可行的路径是提供数据库集成的多模态检索增强生成（RAG）管道，即数据库存储图像和文本的向量嵌入，AI层则执行相似性搜索。这在技术上是可行的，但需要强大的向量索引能力和高效的GPU利用率。

一个相关的开源项目是Milvus，一个向量数据库，因其在规模化管理嵌入方面的能力而在GitHub上获得了超过30,000颗星。海量数据或许可以将类似Milvus的能力集成到其技术栈中，但这仍然需要大量的工程工作来确保性能和可靠性。

数据表：HTAP数据库性能基准测试

| 数据库 | 事务吞吐量 (TPS) | 分析查询延迟 (1TB) | ACID 合规性 | 开源 |
|---|---|---|---|---|
| TiDB (PingCAP) | 50,000 | 2.5 秒 | 是 | 是 |
| CockroachDB | 45,000 | 3.0 秒 | 是 | 是 |
| Vastbase (海量数据) | 15,000 (估计) | 8.0 秒 (估计) | 是 | 否 |
| Amazon Aurora (MySQL) | 60,000 | 12.0 秒 | 是 | 否 |
| Google AlloyDB | 55,000 | 1.8 秒 | 是 | 否 |

数据要点： 海量数据的Vastbase在事务吞吐量和分析查询性能方面均显著落后于开源和云原生竞争对手。该公司需要缩小3-4倍的性能差距才能具备竞争力，考虑到其有限的研发预算，这是一项艰巨的任务。

关键参与者与案例研究

HTAP市场已经挤满了资金雄厚的参与者。TiDB的创建者PingCAP已从红杉资本和GGV等投资者处融资超过5亿美元，其客户包括小米和京东等大型企业。TiDB的开源社区在GitHub上拥有超过40,000颗星，并拥有一个充满活力的贡献者生态系统。同样，Cockroach Labs（CockroachDB）已融资超过6亿美元，服务于Comcast和Bose等公司。在云服务方面，Amazon Aurora、Google AlloyDB和Azure Cosmos DB以托管服务的形式提供HTAP能力，并利用其庞大的基础设施优势。

在多模态AI领域，竞争更为激烈。OpenAI、Google、Meta和Anthropic在模型开发上投入了数十亿美元。在中国，百度的文心一言、阿里的通义千问和腾讯的混元都已具备多模态能力。这些公司拥有庞大的数据中心、专有训练数据和成熟的AI研究团队。而海量数据，以其相对较小的工程团队（估计不到1000人），无法在正面竞争中真正抗衡。

一个更相关的案例研究是一家试图进行类似转型的小公司：Zilliz，即Milvus背后的公司，筹集了超过1亿美元用于构建面向AI工作负载的向量数据库。Zilliz之所以成功，是因为它专注于单一、高需求的应用场景

时间归档

延伸阅读

常见问题

这次公司发布“Massive Data's $96M Bet on HTAP and Multimodal AI: Tech Breakthrough or Capital Narrative?”主要讲了什么？

Massive Data, a publicly traded Chinese technology firm specializing in database solutions, has announced a private placement of 700 million RMB (approximately $96 million) to fund…

从“Massive Data Vastbase HTAP performance benchmarks vs TiDB”看，这家公司的这次发布为什么值得关注？

Massive Data's bet on HTAP (Hybrid Transactional/Analytical Processing) and multimodal AI represents a convergence of two demanding technical domains. HTAP databases aim to eliminate the traditional separation between On…

围绕“Massive Data multimodal AI integration with database”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。