java开发笔记 - java开发笔记

java Maven构建java项目为可执行的jar包(包含依赖jar包)

本文参考 Maven构建可执行的jar包(包含依赖jar包) 感谢！ 1.在java项目的pom.xml文件添加如下代码:  <build> <plugins> <plugin> ...

2022-12-10 342 阅读

java 从Java代码远程提交YARN MapReduce任务

在Hadoop上运行MapReduce任务的标准做法是把代码打包到jar里面，上传到服务器，然后用命令行启动。如果你是从一个Java应用中想要启动一个MapReduce，那么这个方法真是又土又麻烦...

2022-12-10 335 阅读

在 YARN 上运行 mapreduce 的 jar 包

想学习运行一个mapreduce程序试试，记录如下本地运行word count 新建maven项目，添加hadoop-client，版本比如3.1.2官方的wordcount直接拿来用就可以需要把winutils.exe和hadoop.dll放到环...

2022-12-10 225 阅读

本地idea开发mapreduce程序提交到远程hadoop集群执行

https://www.codetd.com/article/664330 https://blog.csdn.net/dream_an/article/details/84342770 通过idea开发mapreduce程序并直接run，提交到远程hadoop集群执行m...

2022-12-10 260 阅读

CDH搭建Hadoop集群(Centos7)

一、说明节点(CentOS7.5) Server || Agent CPU node11 Server || Agent 4G node12 Agent 2G node13 Agent 2G 二、系统环境搭建 1、网络配置(所有节点) 1．...

2022-12-10 327 阅读

修改Gradle 和Maven本地仓库的位置方法

关于Maven的配置: 用过Maven的开发人员应该知道Maven可以通过配置 conf文件夹下面的settings.xml文件来修改maven下载的包，默认是下在c盘的用户文件夹下的.m2中，日积月累.m2会越来越庞大...

2022-12-10 324 阅读

【VS】NuGet 修改包路径

NuGet 是 .NET 平台下的一个免费、开源的包管理开发工具。修改全局包管理目录通过 NuGet 安装包时，NuGet 先将包下载至一个统一的目录，默认路径是：C:\Users\用户名\.nuget\packages 下...

2022-12-10 809 阅读

sparksql减少输出数据中的小文件数量

由于项目中开发用到sparksql ，将一个大表的数据查询后插入到另一种表中，此时数据令也不是太大，但是产生了200多个小文件，占用namenode资源，为了改善该情况使用，将hive中的表加载为一...

2022-12-10 396 阅读

Hive on Spark 参数调优

前言 Hive on Spark是指使用Spark替代传统MapReduce作为Hive的执行引擎，在HIVE-7292提出。Hive on Spark的效率比on MR要高不少，但是也需要合理调整参数才能最大化性能，本文简单列举一些...

2022-12-10 247 阅读

spark 输出到hdfs小文件过多

使用Adaptive Execution 动态设置Shuffle partition 可控制spark sql小文件问题 .config("spark.sql.adaptive.enabled", "true") // 开启sparksql Adaptive Execution 自动设置 Shuffle Re...

2022-12-10 295 阅读

归档