2022-12

Spark（九）Spark之Shuffle调优

一、概述大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此，如果要让作业的性能更上一层楼，就有必要对shuffle过程进...

2022-12-10 218 阅读

Spark（八）JVM调优以及GC垃圾收集器

一JVM结构 1 Java内存结构 JVM内存结构主要有三大块：堆内存、方法区和栈。堆内存是JVM中最大的一块由年轻代和老年代组成，而年轻代内存又被分成三部分，Eden空间、From Survivor空...

2022-12-10 323 阅读

Spark（十一）Spark分区

一、分区的概念　　分区是RDD内部并行计算的一个计算单元，RDD的数据集在逻辑上被划分为多个分片，每一个分片称为分区，分区的格式决定了并行计算的粒度，而每个分区的数值计算都是在一个任...

2022-12-10 323 阅读

Spark（十二）SparkSQL简单使用

一、SparkSQL的进化之路 1.0以前： Shark 1.1.x开始：SparkSQL(只是测试性的) SQL 1.3.x: SparkSQL(正式版本)+Dataframe 1.5.x:&...

2022-12-10 276 阅读

Spark（十三）SparkSQL的自定义函数UDF与开窗函数

一自定义函数UDF 在Spark中，也支持Hive中的自定义函数。自定义函数大致可以分为三种： UDF(User-Defined-Function)，即最基本的自定义函数，类似to_char,to_date等 UDAF（User- Defined A...

2022-12-10 301 阅读

Spark（十四）SparkStreaming的官方文档

一、SparkCore、SparkSQL和SparkStreaming的类似之处二、SparkStreaming的运行流程 2.1　图解说明 2.2　文字解说 1、我们在集群中的其中一台机器上提交我们的Application Jar，然...

2022-12-10 267 阅读

Spark（十五）SparkCore的源码解读

一、启动脚本分析独立部署模式下，主要由master和slaves组成，master可以利用zk实现高可用性，其driver，work，app等信息可以持久化到zk上；slaves由一台至多台主机构成。Driver通过向Maste...

2022-12-10 257 阅读

spark提交任务的两种的方法

在学习Spark过程中，资料中介绍的提交Spark Job的方式主要有两种（我所知道的）：第一种: 通过命令行的方式提交Job,使用spark 自带的spark-submit工具提交，官网和大多数参考...

2022-12-10 213 阅读

hadoop详细笔记(十七) 将MapReduce程序提交到Yarn上运行

1 windows上System.setProperty("HADOOP_USER_NAME", "root");Configuration conf = new Configuration();// 设置访问的集群的位置conf.set("fs.defaultFS", "hdfs://doit01:9000");// 设置y...

2022-12-10 307 阅读

java 如何在Java应用中提交Spark任务？

最近看到有几个Github友关注了Streaming的监控工程——Teddy，所以思来想去还是优化下代码，不能让别人看笑话啊。于是就想改一下之前觉得最丑陋的一个地方——任务提...

2022-12-10 597 阅读

归档