本地idea开发mapreduce程序提交到远程hadoop集群执行

https://www.codetd.com/article/664330    https://blog.csdn.net/dream_an/article/details/84342770   通过idea开发mapreduce程序并直接run,提交到远程hadoop集群执行m...

2022-12-10 243 阅读

CDH搭建Hadoop集群(Centos7)

一、说明  节点(CentOS7.5) Server  || Agent CPU node11 Server  || Agent 4G node12 Agent 2G node13 Agent 2G 二、系统环境搭建 1、网络配置(所有节点) 1....

2022-12-10 305 阅读

修改Gradle 和Maven本地仓库的位置 方法

关于Maven的配置: 用过Maven的开发人员应该知道Maven可以通过配置 conf文件夹下面的settings.xml文件来修改maven下载的包,默认是下在c盘的用户文件夹下的.m2中,日积月累.m2会越来越庞大...

2022-12-10 304 阅读

【VS】NuGet 修改包路径

NuGet 是 .NET 平台下的一个免费、开源的包管理开发工具。 修改全局包管理目录 通过 NuGet 安装包时,NuGet 先将包下载至一个统一的目录,默认路径是:C:\Users\用户名\.nuget\packages 下...

2022-12-10 788 阅读

sparksql减少输出数据中的小文件数量

由于项目中开发用到sparksql ,将一个大表的数据查询后插入到另一种表中,此时数据令也不是太大, 但是产生了200多个小文件,占用namenode资源,为了改善该情况使用, 将hive中的表加载为一...

2022-12-10 377 阅读

Hive on Spark 参数调优

前言 Hive on Spark是指使用Spark替代传统MapReduce作为Hive的执行引擎,在HIVE-7292提出。Hive on Spark的效率比on MR要高不少,但是也需要合理调整参数才能最大化性能,本文简单列举一些...

2022-12-10 218 阅读

spark 输出到hdfs小文件过多

使用Adaptive Execution 动态设置Shuffle partition 可控制spark sql小文件问题 .config("spark.sql.adaptive.enabled", "true") // 开启sparksql Adaptive Execution 自动设置 Shuffle Re...

2022-12-10 245 阅读

maven打完jar包之后将jar包放到指定位置总结

先赞后看,此生必赚 前言maven打完jar包之后,默认放置位置是target目录 有时候项目需要,如何将jar包放置到指定的目录呢? 方式一:通过maven-jar-plugin指定outputDirectory输出路径 可以...

2022-12-10 439 阅读

spring springboot基于spark-launcher构建rest api远程提交spark任务

https://fiend.blog.csdn.net/article/details/106249836

2022-12-10 299 阅读

CountDownLatch的理解和使用

在笔者想要了解Thrift时候,找到一个博主写的系统间通信技术的架构设计,在了解和学习的过程中遇到很多小问题和基础知识,自己还是不够清楚,就查询和总结下。 因为笔者也都是从网上找的一...

2022-12-10 193 阅读