大数据开发：Hive小文件合并

来源:千锋教育

发布人:wjy

2022-12-09

推荐

在线提问>>

　　Hadoop生态技术体系下，负责大数据存储管理的组件，涉及到HDFS、Hive、Hbase等。Hive作为数据仓库工具，最初的存储还是落地到HDFS上，这其中就有一个关键的环节，是小文件的处理。今天的大数据开发分享，我们就主要来讲讲，Hive小文件合并。

Hive小文件合并 1

　　本身来说，由于Hadoop的特性，对大文件的处理非常高效。大文件可以减少文件元数据信息，减轻NameNode的存储压力。相对于上层的数据表汇总程度高，底层就会面临小文件越来越多的问题。

　　一、小文件带来的问题

　　HDFS的文件包好数据块和元信息，其中元信息包括位置、大小、分块等信息，都保存在NameNode的内存中。每个对象大约占用150个字节，因此一千万文件及分块就会占用约3G的内存空间，一旦接近这个量级，NameNode的性能就会开始下降。

　　HDFS读写小文件时也会更加耗时，因为每次都需要从NameNode获取元信息，并且对应的DataNode建立连接。对于MapReduce程序来说，小文件会增加Mapper的数量，每个Map任务只会处理很少的数据，浪费大量的调度时间。

Hive小文件合并 2

　　二、Hive小文件产生的原因

　　一方面hive数据仓库中汇总表的数据量通常比源数据少的多，而且为了提升运算速度，我们会增加Reduce的数量，Hive本身也会做类似的优化——Reducer数量等于源数据的量除以hive.exec.reducers.bytes.per.reduce所配置的量(默认1G)。Reduce数量的增加也即意味着结果文件的增加，从而产生小文件的问题。

　　解决小文件的问题可以从两个方向入手：

　　①输入合并。即在map前合并小文件。

　　②输出合并。即在输出结果的时候合并小文件。

Hive小文件合并 3