Apache Arrow 内存数据

发布时间：2017年05月12日作者：IT网络文摘

1.概述

　　Apache Arrow 是 Apache 基金会全新孵化的一个顶级项目。它设计的目的在于作为一个跨平台的数据层，来加快大数据分析项目的运行速度。

2.内容

　　现在大数据处理模型很多，用户在应用大数据分析时，除了将 Hadoop 等大数据平台作为一个存储和批处理平台之外，同样也得关注系统的扩展性和性能。过去开源社区已经发布了很多工具来完善大数据分析的生态系统，这些工具包含了数据分析的各个层面，例如列式存储格式（Parquet，ORC），内存计算模型（Drill，Spark，Impala 和 Storm）以及其强大的 API 接口。而 Arrow 则是最新加入的一员，它提供了一种跨平台应用的内存数据交换格式。

　　在数据快速增长和复杂化的情况下，提高大数据分析性能一个重要的途径是对列式数据的设计和处理。列式数据处理借助了向量计算和 SIMD 使我们可以充分挖掘硬件的潜力。而 Apache Drill 其大数据查询引擎无论是在硬盘还是内存中数据都是以列的方式存在的，而 Arrow 就是由 Drill 中的 Value Vector 这一数据格式发展而来。此外，Arrow 也支持关系型和动态数据集。

　　Arrow 的诞生为大数据生态带来了很多可能性，有了 Arrow 作为今后标准数据交换格式，各个数据分析的系统和应用之间的交互性可以说是揭开了新的篇章。过去大部分的 CPU 周期都花在了数据的序列化与反序列化上，现在我们则能够实现不同系统之间数据的无缝链接。这意味着使用者在不同系统结合时，不用在数据格式上话费过多的时间。