hive入门学习之常用文件存储格式

科技资讯 投稿 40700 0 评论

hive入门学习之常用文件存储格式

hive 默认的文件存储格式是 TextFile。

一、TextFile

TextFile 是行式存储。

可以用任意分隔符对列分割,建表时需要指定分隔符。

二、ORCFile

ORCFile 是列式存储。

Orc表支持None、Zlib、Snappy压缩,默认支持Zlib压缩。

这几种压缩方式都不支持文件分割,所以压缩后的文件在执行 Map 操作时只会被一个任务所读取。

另外,hive 建事务表需要指定为 orc 存储格式。

  • stripe:存储数据的地方,包括实际数据、数据的索引信息

  • index data:保存了数据在 stripe 中位置的索引信息

  • rows data:数据实际存储的地方,数据以流的形式进行存储

  • stripe footer:保存数据所在的文件目录

  • file footer:包含了文件中 stripe 的列表,每个 stripe 的行数,以及每个列的数据类型。它还包含每个列的最小值、最大值、行计数、求和等聚合信息。

  • postscript:含有压缩参数和压缩大小相关的信息

三、Parquet

建表时需指定 STORED AS PARQUET,文件存储方式为二进制文件。

  • 列块(Column Chunk:在一个行组中每一列保存在一个列块中,行组中的所有列连续的存储在这个行组文件中。一个列块中的值都是相同类型的,不同的列块可能使用不同的算法进行压缩。

四、三者对比

在只有 Fecth 的情况下,由于 TextFile 不需要解压缩,因此效率较高。

当然,这只是我自己简单的测试,有些变量并没有控制好。

在实际生产中,使用 Parquet 存储 lzo 压缩的方式比较常见,这种情况下可以避免由于读取不可分割的大文件引发的数据倾斜。

至于要用哪种存储格式,需要基于自身业务进行考量。

关注“大数据的奇妙冒险”,转载请注明出处!

编程笔记 » hive入门学习之常用文件存储格式

赞同 (28) or 分享 (0)
游客 发表我的评论   换个身份
取消评论

表情
(0)个小伙伴在吐槽