2022-12

java java 管理kafka偏移量_Kafka偏移量(Offset)管理

1.定义 Kafka中的每个partition都由一系列有序的、不可变的消息组成，这些消息被连续的追加到partition中。partition中的每个消息都有一个连续的序号，用于partition唯一标识一条消息。 Offs...

2022-12-10 705 阅读

Spark 实现两表查询(SparkCore和SparkSql)

项目需求： ip.txt:包含ip起始地址，ip结束地址，ip所属省份 access.txt:包含ip地址和各种访问数据需求：两表联合查询每个省份的ip数量 SparkCore 使用广播，将小表广播到executor.对大表的...

2022-12-10 302 阅读

kafka spark streaming拉取kafka数据，结合sparkSql dataframe hive存储计算，输出到mysql

spark streaming拉取kafka数据，结合sparkSql dataframe hive存储计算，输出到mysql. 数据清洗过程比较复杂，没办法，上游给的屡一样的数据，正则去解析并全量按时间取最新一条去重。每天k...

2022-12-10 480 阅读

Unable to instantiate SparkSession with Hive support because Hive classes are not found.

写一个maven模块的时候出现了这样一个Exception： Exception in thread "main" java.lang.IllegalArgumentException: Unable to instantiate SparkSession with Hive support because Hive c...

2022-12-10 453 阅读

kafka sparkstreaming 实时读取kafka写入hive优化（高流量）

背景： kafka流量在800M/s,前任留下的程序大量数据丢失，且逻辑生成复杂，查询hive直接奔溃，优化从两方面，程序优化及小文件合并（生成结果产生大量小文件）程序直接上代码，啥也不说了程...

2022-12-10 447 阅读

Kubernetes Spark on K8S （Kubernetes Native）

Spark on K8S 的几种模式 Standalone：在 K8S 启动一个长期运行的集群，所有 Job 都通过 spark-submit 向这个集群提交 Kubernetes Native：通过 spark-submit 直接向 K8S 的 API Server 提...

2022-12-10 479 阅读

Impala原理及其调优

Impala支持的文件格式 Impala可以对Hadoop中大多数格式的文件进行查询。它能通过create table和insert的方式将一部分格式的数据加载到table中，但值得注意的是，有一些格式的数据它是无法写...

2022-12-10 292 阅读

Spark认识&环境搭建&运行第一个Spark程序

摘要：Spark作为新一代大数据计算引擎，因为内存计算的特性，具有比hadoop更快的计算速度。这里总结下对Spark的认识、虚拟机Spark安装、Spark开发环境搭建及编写第一个scala程序、运行第一个...

2022-12-10 323 阅读

Spark任务提交方式和执行流程

转自：http://www.cnblogs.com/frankdeng/p/9301485.html 一、Spark集群模式概述 Spark 应用在集群上作为独立的进程组来运行，在您的main程序中通过SparkContext来协调（称之为driver程序）...

2022-12-10 454 阅读

Llama－impala on yarn的中间协调服务

本文基于CDH发行版下的Hadoop Yarn和Impala 早期的Impala版本中，为了使用Impala，我们通常会在以Client/Server的结构在各个集群节点启动impala-server、impala-state-store和impala-...

2022-12-10 296 阅读

归档