linux Linux系统之pssh系列工具的使用
一、pssh简介及安装 首先我们来了解下什么是pssh,它是干嘛用的?pssh是一个python编写可以在多台服务器上执行命令的工具,也可以实现文件复制。换而言之就是一个批量管理多台服务...
Spark学习之路Spark之RDD
一、RDD的概述 1.1 什么是RDD? RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD...
Spark RDD中两种算子之一:常见Action算子小结
**RDD:**弹性分布式数据集,是一种特殊集合,支持多来源,有容错机制,可以被缓存,支持并行操作,一个RDD代表多个分区里的数据集。 RDD有两种算子:1.Transformation(转换):属于延迟Laz...
Spark on YARN
前言Spark 可以跑在很多集群上,比如跑在local上,跑在Standalone上,跑在Apache Mesos上,跑在Hadoop YARN上等等。不管你Spark跑在什么上面,它的代码都是一样的,区别只是–master的...
解决spark on yarn每次都传递一堆jars的问题
问题复现spark-submit \--master yarn \--deploy-mode cluster \--class com.bigdata.homework.standby.JDBCApp \--jars /home/hadoop/lib/mysql-connector-java-5.1.47.jar,/home/hadoop/li...
hive和spark读取kudu表
从impala中创建kudu表之后,如果想从hive或spark sql直接读取,会报错: Caused by: java.lang.ClassNotFoundException: com.cloudera.kudu.hive.KuduStorageHandler at java.net.URLC...
[Spark SQL]Spark SQL读取Kudu,写入Hive
SparkUnitFunction:用于获取Spark Session package com.example.unitl import org.apache.spark.sql.SparkSession object SparkUnit { def getLocal(appName: String): SparkSession = { ...
SPARK-SQL内置函数之时间日期类
转载请注明转自:http://www.cnblogs.com/feiyumo/p/8760846.html 一、获取当前时间 1.current_date获取当前日期 2018-04-09 2.current_timestamp/now()获取当前时间 2018-04-09 15:20:49.2...
重点---版本问题-Spark中的一次ClassNotFoundException排除
前阵子,我把实验室小集群上的spark从2.0.0升级到了2.1.1,当时直接排除掉了一个hdfs-site.xml文件不一致的错误(估计这是2.0.0版本的一个BUG),而且跑了一下测试代码,一切OK。 可是,今天...
指定列的Spark sql问题
由于Spark SQL不支持insert语句中的列列表,因此出现此错误。所以从insert语句中排除列列表。 下面是我的hive表: 0: jdbc:hive2://hpchdd2-zk-1.hpc.ford.com:218> select * from UDB...