sparksql减少输出数据中的小文件数量

2022-12-10 453 阅读 0 评论

由于项目中开发用到sparksql ，将一个大表的数据查询后插入到另一种表中，此时数据令也不是太大，

但是产生了200多个小文件，占用namenode资源，为了改善该情况使用，

将hive中的表加载为一个df，然后重新分区+缓存+注册为临时表，在进行查询，插入操作，此时文件为20个

关键代码如下：

val aDF =hiveContext.table(“info_user”).repartition(2).persist()

aDF.registerTempTable(“info_user”)
————————————————
版权声明：本文为CSDN博主「明月不归尘」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/u014236468/article/details/78675596

sparksql减少输出数据中的小文件数量

相关文章

归档