Spark(九)Spark之Shuffle调优

一、概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进...

2022-12-10 192 阅读

Spark(八)JVM调优以及GC垃圾收集器

  一JVM结构 1 Java内存结构 JVM内存结构主要有三大块:堆内存、方法区和栈。 堆内存是JVM中最大的一块由年轻代和老年代组成,而年轻代内存又被分成三部分,Eden空间、From Survivor空...

2022-12-10 298 阅读

Spark(十一)Spark分区

一、分区的概念   分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度,而每个分区的数值计算都是在一个任...

2022-12-10 288 阅读

Spark(十二)SparkSQL简单使用

一、SparkSQL的进化之路 1.0以前:   Shark 1.1.x开始:SparkSQL(只是测试性的)  SQL 1.3.x:          SparkSQL(正式版本)+Dataframe 1.5.x:&...

2022-12-10 246 阅读

Spark(十三)SparkSQL的自定义函数UDF与开窗函数

一 自定义函数UDF 在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF(User- Defined A...

2022-12-10 272 阅读

Spark(十四)SparkStreaming的官方文档

一、SparkCore、SparkSQL和SparkStreaming的类似之处 二、SparkStreaming的运行流程 2.1 图解说明   2.2 文字解说 1、我们在集群中的其中一台机器上提交我们的Application Jar,然...

2022-12-10 227 阅读

Spark(十五)SparkCore的源码解读

一、启动脚本分析 独立部署模式下,主要由master和slaves组成,master可以利用zk实现高可用性,其driver,work,app等信息可以持久化到zk上;slaves由一台至多台主机构成。Driver通过向Maste...

2022-12-10 219 阅读

spark提交任务的两种的方法

在学习Spark过程中,资料中介绍的提交Spark Job的方式主要有两种(我所知道的): 第一种:    通过命令行的方式提交Job,使用spark 自带的spark-submit工具提交,官网和大多数参考...

2022-12-10 188 阅读

hadoop详细笔记(十七) 将MapReduce程序提交到Yarn上运行

1 windows上System.setProperty("HADOOP_USER_NAME", "root");Configuration conf = new Configuration();// 设置访问的集群的位置conf.set("fs.defaultFS", "hdfs://doit01:9000");// 设置y...

2022-12-10 283 阅读

java 如何在Java应用中提交Spark任务?

最近看到有几个Github友关注了Streaming的监控工程——Teddy,所以思来想去还是优化下代码,不能让别人看笑话啊。于是就想改一下之前觉得最丑陋的一个地方——任务提...

2022-12-10 542 阅读