hive入门学习之常用文件存储格式

hive 默认的文件存储格式是 TextFile。

一、TextFile

TextFile 是行式存储。

可以用任意分隔符对列分割，建表时需要指定分隔符。

ORCFile 是列式存储。

Orc表支持None、Zlib、Snappy压缩，默认支持Zlib压缩。

这几种压缩方式都不支持文件分割，所以压缩后的文件在执行 Map 操作时只会被一个任务所读取。

另外，hive 建事务表需要指定为 orc 存储格式。

stripe：存储数据的地方，包括实际数据、数据的索引信息
index data：保存了数据在 stripe 中位置的索引信息
rows data：数据实际存储的地方,数据以流的形式进行存储
stripe footer：保存数据所在的文件目录
file footer：包含了文件中 stripe 的列表,每个 stripe 的行数,以及每个列的数据类型。它还包含每个列的最小值、最大值、行计数、求和等聚合信息。
postscript：含有压缩参数和压缩大小相关的信息

建表时需指定 STORED AS PARQUET，文件存储方式为二进制文件。

列块(Column Chunk：在一个行组中每一列保存在一个列块中，行组中的所有列连续的存储在这个行组文件中。一个列块中的值都是相同类型的，不同的列块可能使用不同的算法进行压缩。

在只有 Fecth 的情况下，由于 TextFile 不需要解压缩，因此效率较高。

当然，这只是我自己简单的测试，有些变量并没有控制好。

在实际生产中，使用 Parquet 存储 lzo 压缩的方式比较常见，这种情况下可以避免由于读取不可分割的大文件引发的数据倾斜。

至于要用哪种存储格式，需要基于自身业务进行考量。

关注“大数据的奇妙冒险”，转载请注明出处！