2022-12

java spark sql在scala与java中的代码实现

在编写spark sql代码前，需要新建maven工程，将hadoop下的配置文件core-site.xml和hdfs-site.xml,以及hive中的hive-site.xml拷贝到工程的resource目录下，并在pom.xml中配置jar包信息。 pom....

2022-12-10 319 阅读

SQL执行计划详解explain

1.使用explain语句去查看分析结果如explain select * from test1 where id=1;会出现：id selecttype table type possible_keys key key_len ref rows extra各列。其中， type=...

2022-12-10 402 阅读

SparkSQL访问Hive遇到的问题及解决方法

需要先将hadoop的core-site.xml，hive的hive-site.xml拷贝到project中测试代码def main(args: Array): Unit = { val spark: SparkSession = SparkSession .builder() .appName(...

2022-12-10 458 阅读

apache org.apache.thrift.transport.TTransportException: null

问题描述每次client调用server端，均有正常返回，但是server端还会多打出一些异常信息，如下。 org.apache.thrift.transport.TTransportException: null at org.apache.thrift.trans...

2022-12-10 562 阅读

spark sql连接hive（local方式）---自测通过

<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.12</artifactId> <version>0.11.0.0</version></dependenc...

2022-12-10 283 阅读

kafka sparkstreaming kafka（local方式）--自测通过

<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.12</artifactId> <version>0.11.0.0</version&g...

2022-12-10 346 阅读

kafka sparkstreaming kafka（spark yarn方式）--自测通过

2

2022-12-10 444 阅读

关于IDEA破解后无法启动问题

1.错误的使用破解插件后导致idea不能正常启动技术小白记录下自己的踩坑史自己使用的idea2020.1.2，tb平台购买破解插件包破解后两天就失效，再次破解时idea重启卡死在加载页面，任务管理器杀...

2022-12-10 811 阅读

批量计算和流式计算

一、数据集类型现实世界中，所有的数据都是以流式的形态产生的，不管是哪里产生的数据，在产生的过程中都是一条条地生成，最后经过了存储和转换处理，形成了各种类型的数据集。如下图所示...

2022-12-10 504 阅读

MapReduce shuffle过程详解

一、MapReduce计算模型我们知道MapReduce计算模型主要由三个阶段构成：Map、shuffle、Reduce。 Map是映射，负责数据的过滤分法，将原始数据转化为键值对；Reduce是合并，将具有相同key值的va...

2022-12-10 245 阅读

归档