由于项目中开发用到sparksql ,将一个大表的数据查询后插入到另一种表中,此时数据令也不是太大,
但是产生了200多个小文件,占用namenode资源,为了改善该情况使用,
将hive中的表加载为一个df,然后重新分区+缓存+注册为临时表,在进行查询,插入操作,此时文件为20个
关键代码如下:
val aDF =hiveContext.table(“info_user”).repartition(2).persist()
aDF.registerTempTable(“info_user”)
————————————————
版权声明:本文为CSDN博主「明月不归尘」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/u014236468/article/details/78675596