Spark(十二)SparkSQL简单使用

一、SparkSQL的进化之路 1.0以前:   Shark 1.1.x开始:SparkSQL(只是测试性的)  SQL 1.3.x:          SparkSQL(正式版本)+Dataframe 1.5.x:&...

2022-12-10 250 阅读

Spark(十三)SparkSQL的自定义函数UDF与开窗函数

一 自定义函数UDF 在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF(User- Defined A...

2022-12-10 275 阅读

Spark(十四)SparkStreaming的官方文档

一、SparkCore、SparkSQL和SparkStreaming的类似之处 二、SparkStreaming的运行流程 2.1 图解说明   2.2 文字解说 1、我们在集群中的其中一台机器上提交我们的Application Jar,然...

2022-12-10 232 阅读

Spark(十五)SparkCore的源码解读

一、启动脚本分析 独立部署模式下,主要由master和slaves组成,master可以利用zk实现高可用性,其driver,work,app等信息可以持久化到zk上;slaves由一台至多台主机构成。Driver通过向Maste...

2022-12-10 223 阅读

spark提交任务的两种的方法

在学习Spark过程中,资料中介绍的提交Spark Job的方式主要有两种(我所知道的): 第一种:    通过命令行的方式提交Job,使用spark 自带的spark-submit工具提交,官网和大多数参考...

2022-12-10 193 阅读

hadoop详细笔记(十七) 将MapReduce程序提交到Yarn上运行

1 windows上System.setProperty("HADOOP_USER_NAME", "root");Configuration conf = new Configuration();// 设置访问的集群的位置conf.set("fs.defaultFS", "hdfs://doit01:9000");// 设置y...

2022-12-10 286 阅读

java 如何在Java应用中提交Spark任务?

最近看到有几个Github友关注了Streaming的监控工程——Teddy,所以思来想去还是优化下代码,不能让别人看笑话啊。于是就想改一下之前觉得最丑陋的一个地方——任务提...

2022-12-10 545 阅读

java Maven构建java项目为可执行的jar包(包含依赖jar包)

本文参考 Maven构建可执行的jar包(包含依赖jar包) 感谢! 1.在java项目的pom.xml文件添加如下代码: <!-- maven 打包集成插件 --> <build> <plugins> <plugin> ...

2022-12-10 318 阅读

java 从Java代码远程提交YARN MapReduce任务

  在Hadoop上运行MapReduce任务的标准做法是把代码打包到jar里面,上传到服务器,然后用命令行启动。如果你是从一个Java应用中想要启动一个MapReduce,那么这个方法真是又土又麻烦...

2022-12-10 306 阅读

在 YARN 上运行 mapreduce 的 jar 包

想学习运行一个mapreduce程序试试,记录如下 本地运行word count 新建maven项目,添加hadoop-client,版本比如3.1.2官方的wordcount直接拿来用就可以需要把winutils.exe和hadoop.dll放到环...

2022-12-10 202 阅读