Spark(十二)SparkSQL简单使用
一、SparkSQL的进化之路 1.0以前: Shark 1.1.x开始:SparkSQL(只是测试性的) SQL 1.3.x: SparkSQL(正式版本)+Dataframe 1.5.x:&...
Spark(十三)SparkSQL的自定义函数UDF与开窗函数
一 自定义函数UDF 在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF(User- Defined A...
Spark(十四)SparkStreaming的官方文档
一、SparkCore、SparkSQL和SparkStreaming的类似之处 二、SparkStreaming的运行流程 2.1 图解说明 2.2 文字解说 1、我们在集群中的其中一台机器上提交我们的Application Jar,然...
Spark(十五)SparkCore的源码解读
一、启动脚本分析 独立部署模式下,主要由master和slaves组成,master可以利用zk实现高可用性,其driver,work,app等信息可以持久化到zk上;slaves由一台至多台主机构成。Driver通过向Maste...
spark提交任务的两种的方法
在学习Spark过程中,资料中介绍的提交Spark Job的方式主要有两种(我所知道的): 第一种: 通过命令行的方式提交Job,使用spark 自带的spark-submit工具提交,官网和大多数参考...
hadoop详细笔记(十七) 将MapReduce程序提交到Yarn上运行
1 windows上System.setProperty("HADOOP_USER_NAME", "root");Configuration conf = new Configuration();// 设置访问的集群的位置conf.set("fs.defaultFS", "hdfs://doit01:9000");// 设置y...
java 如何在Java应用中提交Spark任务?
最近看到有几个Github友关注了Streaming的监控工程——Teddy,所以思来想去还是优化下代码,不能让别人看笑话啊。于是就想改一下之前觉得最丑陋的一个地方——任务提...
java Maven构建java项目为可执行的jar包(包含依赖jar包)
本文参考 Maven构建可执行的jar包(包含依赖jar包) 感谢! 1.在java项目的pom.xml文件添加如下代码: <!-- maven 打包集成插件 --> <build> <plugins> <plugin> ...
java 从Java代码远程提交YARN MapReduce任务
在Hadoop上运行MapReduce任务的标准做法是把代码打包到jar里面,上传到服务器,然后用命令行启动。如果你是从一个Java应用中想要启动一个MapReduce,那么这个方法真是又土又麻烦...
在 YARN 上运行 mapreduce 的 jar 包
想学习运行一个mapreduce程序试试,记录如下 本地运行word count 新建maven项目,添加hadoop-client,版本比如3.1.2官方的wordcount直接拿来用就可以需要把winutils.exe和hadoop.dll放到环...