2022-12

我们在初始化SparkConf时，或者提交Spark任务时，都会有master参数需要设置，如下： conf = SparkConf().setAppName(appName).setMaster(master) sc = SparkContext(conf=conf) /bin/s...

2022-12-10 454 阅读

1.yarn-client用于测试，因为ta的Driver运行在本地客户端，会与yarn集群产生较大的网络通信，从而导致网卡流量激增；它的好处在于直接执行时，在本地可以查看到所有的log，方便调试；2.yarn-...

2022-12-10 240 阅读

一.背景介绍许多中小型企业使用Ambari去管理自己的大数据集群，以Spark作为主要的计算框架去实现数据的分析。通用的Spark的开发调试流程是往往需要以下流程： Idea上进行开发，并使用spark l...

2022-12-10 375 阅读

官网介绍 http://spark.apache.org/docs/2.3.0/streaming-kafka-0-10-integration.html#creating-a-direct-stream 案例pom.xml依赖 <dependency> <groupId>o...

2022-12-10 482 阅读

①进入到kafka文件夹中修改配置文件：vim config/server.properties ②启动zookeeper： bin/zookeeper-server-start.sh config/zookeeper.properties 端口2181是Z...

2022-12-10 1008 阅读

环境：spark2.2.0 JDK1.8 感觉网上关于spark2.0的java程序案例太少了，在这里补充一个，大家有好的案例也可以分享啊不多说，直接上代码 /** * @author admin * @define 统计网站日用户访问量...

2022-12-10 319 阅读

问题描述spark读取hdfs文件时候报错解决方法 <dependency> <groupId>org.codehaus.janino</groupId> <artifactId>janino</artifactId> <v...

2022-12-10 447 阅读

前言在上一篇中讲述如何搭建kafka集群，本篇则讲述如何简单的使用 kafka 。不过在使用kafka的时候，还是应该简单的了解下kafka。 Kafka的介绍 Kafka是一种高吞吐量的分布式发布订阅消息系...

2022-12-10 416 阅读

前面有说道spark-streaming的简单demo，也有说到kafka成功跑通的例子，这里就结合二者，也是常用的使用之一。 1.相关组件版本首先确认版本，因为跟之前的版本有些不一样，所以才有必要记录...

2022-12-10 450 阅读

入门起点：SparkSession Spark中所有功能的入口点就是这个SparkSession类。要创建一个基本的SparkSession，只需使用SparkSession.builder()： import org.apache.sp...

2022-12-10 306 阅读

归档