本地idea开发mapreduce程序提交到远程hadoop集群执行
https://www.codetd.com/article/664330 https://blog.csdn.net/dream_an/article/details/84342770 通过idea开发mapreduce程序并直接run,提交到远程hadoop集群执行m...
CDH搭建Hadoop集群(Centos7)
一、说明 节点(CentOS7.5) Server || Agent CPU node11 Server || Agent 4G node12 Agent 2G node13 Agent 2G 二、系统环境搭建 1、网络配置(所有节点) 1....
修改Gradle 和Maven本地仓库的位置 方法
关于Maven的配置: 用过Maven的开发人员应该知道Maven可以通过配置 conf文件夹下面的settings.xml文件来修改maven下载的包,默认是下在c盘的用户文件夹下的.m2中,日积月累.m2会越来越庞大...
【VS】NuGet 修改包路径
NuGet 是 .NET 平台下的一个免费、开源的包管理开发工具。 修改全局包管理目录 通过 NuGet 安装包时,NuGet 先将包下载至一个统一的目录,默认路径是:C:\Users\用户名\.nuget\packages 下...
sparksql减少输出数据中的小文件数量
由于项目中开发用到sparksql ,将一个大表的数据查询后插入到另一种表中,此时数据令也不是太大, 但是产生了200多个小文件,占用namenode资源,为了改善该情况使用, 将hive中的表加载为一...
Hive on Spark 参数调优
前言 Hive on Spark是指使用Spark替代传统MapReduce作为Hive的执行引擎,在HIVE-7292提出。Hive on Spark的效率比on MR要高不少,但是也需要合理调整参数才能最大化性能,本文简单列举一些...
spark 输出到hdfs小文件过多
使用Adaptive Execution 动态设置Shuffle partition 可控制spark sql小文件问题 .config("spark.sql.adaptive.enabled", "true") // 开启sparksql Adaptive Execution 自动设置 Shuffle Re...
maven打完jar包之后将jar包放到指定位置总结
先赞后看,此生必赚 前言maven打完jar包之后,默认放置位置是target目录 有时候项目需要,如何将jar包放置到指定的目录呢? 方式一:通过maven-jar-plugin指定outputDirectory输出路径 可以...
spring springboot基于spark-launcher构建rest api远程提交spark任务
https://fiend.blog.csdn.net/article/details/106249836
CountDownLatch的理解和使用
在笔者想要了解Thrift时候,找到一个博主写的系统间通信技术的架构设计,在了解和学习的过程中遇到很多小问题和基础知识,自己还是不够清楚,就查询和总结下。 因为笔者也都是从网上找的一...