列式存储:驱动AI时代的静默数据革命

Hacker News April 2026
来源:Hacker News归档:April 2026
在AI模型可见的进步之下,一场数据架构的静默革命正在发生。列式存储格式的广泛采用,代表着对信息组织方式的根本性重构——其目标并非人类可读性或事务处理效率,而是为了机器认知与前所未有的规模化分析处理。

人工智能的爆炸式增长对数据基础设施提出了前所未有的需求,暴露了传统行式存储系统的根本性局限。以Apache Parquet和Apache ORC为代表的列式存储格式,已成为分析和机器学习工作负载的事实标准,但其意义远超性能优化。这标志着一场面向机器的“数据归一化”范式转移,信息结构开始与计算模式而非人类可读形式对齐。

列式组织的技术优势显而易见:将同一属性的值存储在一起,能实现卓越的压缩比(通常为5-10倍),并大幅减少扫描特定列的查询I/O。然而,其深层影响在于重塑了数据与计算的关系。在AI时代,数据不再仅仅是记录,而是为算法优化的“燃料”。列式存储通过列裁剪、谓词下推和高效编码,使系统能够仅读取和处理模型训练或推理所需的精确数据子集,从而将资源集中在计算而非数据移动上。

这种转变催生了以Apache Parquet、Apache Arrow和Apache ORC为核心的生态系统。Parquet凭借其广泛的生态支持成为主导格式;Arrow提供了内存中的列式格式,实现了系统间的零拷贝数据共享;ORC则在Hadoop生态中保持重要地位,为Hive工作负载优化。云数据仓库如Snowflake和BigQuery,以及数据处理引擎如Apache Spark,都已将列式存储作为其架构基石。

更重要的是,列式存储正在为AI特定工作负载进化。Parquet 2.9规范增强了对存储嵌入向量和模型权重所需的大型二进制对象的支持,并优化了数值特征中常见的浮点数据编码。同时,像lance这样专为AI设计的列式数据格式正在兴起,旨在解决传统列式格式在随机访问单个记录方面的弱点。这场静默的革命,正从底层重新定义AI时代的数据基础设施。

技术深度解析

列式存储的核心在于颠覆了数据的基本组织方式。传统的行式数据库(如MySQL或PostgreSQL)将单个记录的所有属性连续存储,而列式系统则将单个属性的所有值存储在一起。这一看似简单的反转,为分析和机器学习工作负载带来了深远优势。

其技术架构通常包含以下要素:

1. 列块与页面:数据被划分为列块(通常对应HDFS块或云存储对象),并进一步细分为页面——这是最小的I/O单元。每个页面包含压缩元数据、字典编码以及统计信息(最小值/最大值、空值计数),这些信息支持谓词下推过滤。

2. 编码方案:列式格式采用根据数据特征定制的复杂编码策略。游程编码(RLE)适用于已排序或低基数列,而字典编码则用紧凑的整数键替换重复值。差值编码存储连续值之间的差异,位打包技术则用于压缩整数范围。

3. 嵌套数据支持:Parquet等现代格式采用Google开发的Dremel编码方案,利用定义级别和重复级别来高效存储嵌套和重复结构,而无需将其扁平化——这对于ML应用中常见的类JSON特征数据至关重要。

4. 谓词下推与统计信息:文件级和页面级的统计信息允许查询引擎跳过整个数据段而无需读取。例如,对 `timestamp > '2024-01-01'` 的过滤器可以跳过最大时间戳早于此值的文件,从而大幅减少I/O。

性能优势是可量化的。以一个典型的分析查询为例,该查询从一个包含100列、10亿行的表中扫描10列:

| 存储格式 | 读取数据量 | 压缩比 | 查询时间(估算) |
|---|---|---|---|
| 行式(CSV/JSON) | 100%的数据(所有列) | 1:1(无压缩) | 120分钟 |
| 列式(Parquet)- 未压缩 | 10%的数据(仅所需列) | 1:1 | 12分钟 |
| 列式(Parquet)- 压缩 | 10%的数据 + 5:1压缩 | 5:1 | ~2.4分钟 |

数据要点:列式存储结合压缩,通过减少读取的数据量(列裁剪)及其物理大小(压缩),可为分析查询带来高达50倍的性能提升

推动这一生态系统的关键开源项目包括:
- Apache Parquet:占主导地位的列式格式,拥有广泛的生态系统支持。`parquet-format` GitHub仓库定义了规范,已获得超过2.3k星标。
- Apache Arrow:提供内存中的列式格式,实现系统间的零拷贝数据共享。`arrow` 仓库已获得超过13k星标,使Pandas、Spark和TensorFlow等框架能够无需序列化开销即可交换数据。
- Apache ORC:为Hive工作负载优化,提供强大的ACID事务支持。虽然在云环境中不如Parquet占主导地位,但在Hadoop生态系统中仍然重要。

近期的进展主要集中在增强列式格式以应对AI特定工作负载。Parquet 2.9规范引入了对大型二进制对象(对存储嵌入向量和模型权重至关重要)的改进支持,以及对数值特征中常见的浮点数据更高效的编码。与此同时,像 lance(一种面向ML的列式数据格式,GitHub上3.8k星标)这样的项目正专为AI而兴起,提供对单个记录更快的随机访问能力——这是传统为顺序扫描优化的列式格式的一个弱点。

关键参与者与案例研究

列式存储革命在整个数据技术栈中创造了赢家,从基础设施提供商到利用该范式获取竞争优势的应用层公司。

基础设施主导者:
- Databricks:围绕Delta Lake(以Parquet作为底层格式)构建了Lakehouse架构,并结合了向量化查询引擎Photon。他们统一分析和ML的方法已吸引了超过10,000家客户。
- Snowflake:从头开始设计其平台,采用专为云对象存储优化的专有列式格式。其存储与计算分离的架构,结合微分区和聚类键,展示了列式组织如何实现弹性扩展。
- Google BigQuery:使用其内部列式格式Capacitor开创了无服务器数据仓库的先河。BigQuery每天为ML训练管道处理PB级数据,并通过自动后台优化(如重新聚类)来维持性能。

工具与平台创新者:
- Apache Spark:作为大数据分析的主导处理引擎,于2016年将Parquet采纳为其默认存储格式。Spark的Catalyst优化器生成执行计划,通过谓词下推、列裁剪和针对列式数据的向量化处理,最大化列式存储的优势。

更多来自 Hacker News

谷歌的平台豪赌:统一AI编排将如何重塑企业技术版图从财务、客服到编程、营销,专业AI智能体在企业各部门的快速扩散,已催生了业界观察家所谓的‘智能体蔓延’。这种现象以各自为政、互不关联的AI应用为特征,正带来巨大的管理开销、安全漏洞、不可预测的成本以及集成失败,威胁着AI应用所承诺的效率提升双芯AI处理器崛起:自主智能体部署的关键硬件基石AI处理器设计领域正在发生一场重大的架构转变,业界正果断地摒弃单纯追求模型训练峰值算力(FLOPs)的旧有路径。领先的芯片设计商和系统架构师正共同聚焦于一种双芯策略,旨在分割高级AI智能体的计算负载。其中一颗芯片,通常是高带宽、大规模并行的元指令系统崛起:AI智能体如何学会理解意图,而非仅仅服从命令AI智能体发展的前沿已超越单纯扩展模型参数。关键突破在于根本性的架构重设计:从单一、填满上下文窗口的提示词,转向动态分层的元指令系统。这种架构在用户高层目标与智能体工具调用执行之间,引入了一个精密的规划与推理层。诸如“优化我们本季度云基础设查看来源专题页Hacker News 已收录 2309 篇文章

时间归档

April 20262083 篇已发布文章

延伸阅读

双芯AI处理器崛起:自主智能体部署的关键硬件基石AI硬件竞赛正从追求原始训练算力,转向一个全新范式:为持续行动而设计的硅芯片。新兴的双芯处理器在架构上将复杂的“思考”与实时的“执行”分离,为即将到来的自主AI智能体浪潮奠定了专用硬件基础。这标志着面向AI行动时代的计算基础设施的根本性重构Almanac MCP 打破AI智能体信息孤岛,解锁实时网络研究能力开源工具Almanac MCP正解决AI编程助手的关键瓶颈——对实时网络信息受限且失真的访问。它通过提供直接、高保真的网络搜索、Reddit查询和页面抓取能力,将智能体从静态代码生成器转变为能综合实时信息的动态研究引擎。Claude编程功能拆分:AI定价模式正转向按能力收费Anthropic悄然调整Claude Pro订阅方案,新用户的20美元月费套餐不再包含高级编程功能。这一战略拆分标志着行业正从通用AI助手转向按能力定价的专业化服务,从根本上重塑人工智能服务的打包与销售方式。600亿美元收购Cursor:SpaceX如何用AI重写航空航天工程法则SpaceX以600亿美元正式收购AI编程先驱Cursor,创下航天史上最大规模技术并购案。此举旨在将尖端AI开发能力内化,从根本上加速星舰、星链等雄心计划的研发周期,标志着航空航天工程范式即将迎来根本性转变。

常见问题

这篇关于“Columnar Storage: The Silent Data Revolution Powering the AI Era”的文章讲了什么?

The explosive growth of artificial intelligence has created unprecedented demands on data infrastructure, exposing fundamental limitations in traditional row-oriented storage syste…

从“Parquet vs ORC for machine learning workloads”看,这件事为什么值得关注?

At its core, columnar storage reverses the fundamental organization of data. While traditional row-oriented databases (like MySQL or PostgreSQL) store all attributes of a single record contiguously, columnar systems stor…

如果想继续追踪“how to optimize Parquet files for TensorFlow training”,应该重点看什么?

可以继续查看本文整理的原文链接、相关文章和 AI 分析部分,快速了解事件背景、影响与后续进展。