java开发笔记 - java开发笔记

kafka sparkstreaming kafka（local方式）--自测通过

<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.12</artifactId> <version>0.11.0.0</version&g...

2022-12-10 505 阅读

kafka sparkstreaming kafka（spark yarn方式）--自测通过

2

2022-12-10 579 阅读

关于IDEA破解后无法启动问题

1.错误的使用破解插件后导致idea不能正常启动技术小白记录下自己的踩坑史自己使用的idea2020.1.2，tb平台购买破解插件包破解后两天就失效，再次破解时idea重启卡死在加载页面，任务管理器杀...

2022-12-10 977 阅读

批量计算和流式计算

一、数据集类型现实世界中，所有的数据都是以流式的形态产生的，不管是哪里产生的数据，在产生的过程中都是一条条地生成，最后经过了存储和转换处理，形成了各种类型的数据集。如下图所示...

2022-12-10 621 阅读

MapReduce shuffle过程详解

一、MapReduce计算模型我们知道MapReduce计算模型主要由三个阶段构成：Map、shuffle、Reduce。 Map是映射，负责数据的过滤分法，将原始数据转化为键值对；Reduce是合并，将具有相同key值的va...

2022-12-10 361 阅读

linux Linux系统之pssh系列工具的使用

　　一、pssh简介及安装　　首先我们来了解下什么是pssh，它是干嘛用的？pssh是一个python编写可以在多台服务器上执行命令的工具，也可以实现文件复制。换而言之就是一个批量管理多台服务...

2022-12-10 643 阅读

Spark学习之路Spark之RDD

一、RDD的概述 1.1　什么是RDD？ RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD...

2022-12-10 395 阅读

Spark RDD中两种算子之一：常见Action算子小结

**RDD：**弹性分布式数据集，是一种特殊集合，支持多来源，有容错机制，可以被缓存，支持并行操作，一个RDD代表多个分区里的数据集。 RDD有两种算子：1.Transformation（转换）：属于延迟Laz...

2022-12-10 298 阅读

Spark on YARN

前言Spark 可以跑在很多集群上，比如跑在local上，跑在Standalone上，跑在Apache Mesos上，跑在Hadoop YARN上等等。不管你Spark跑在什么上面，它的代码都是一样的，区别只是–master的...

2022-12-10 289 阅读

解决spark on yarn每次都传递一堆jars的问题

问题复现spark-submit \--master yarn \--deploy-mode cluster \--class com.bigdata.homework.standby.JDBCApp \--jars /home/hadoop/lib/mysql-connector-java-5.1.47.jar,/home/hadoop/li...

2022-12-10 352 阅读

归档