kafka - java开发笔记

主要思路：SparkContext由spring容器管理，在spring容器启动完毕后，执行spark-streaming-kafka，获取数据并处理。 1.spring容器中初始化SparkContext，代码片段如下： @Bean @ConditionalO...

2022-12-10 662 阅读

官网介绍 http://spark.apache.org/docs/2.3.0/streaming-kafka-0-10-integration.html#creating-a-direct-stream 案例pom.xml依赖 <dependency> <groupId>o...

2022-12-10 500 阅读

①进入到kafka文件夹中修改配置文件：vim config/server.properties ②启动zookeeper： bin/zookeeper-server-start.sh config/zookeeper.properties 端口2181是Z...

2022-12-10 1030 阅读

前言在上一篇中讲述如何搭建kafka集群，本篇则讲述如何简单的使用 kafka 。不过在使用kafka的时候，还是应该简单的了解下kafka。 Kafka的介绍 Kafka是一种高吞吐量的分布式发布订阅消息系...

2022-12-10 444 阅读

Kafka的消息消费是以消费的group为单位; 同属一个group中的多个consumer分别消费topic的不同partition; 同组内consumer的变化, partition变化, coordinator的变化都会引发balance; 消费的...

2022-12-10 424 阅读

1.定义 Kafka中的每个partition都由一系列有序的、不可变的消息组成，这些消息被连续的追加到partition中。partition中的每个消息都有一个连续的序号，用于partition唯一标识一条消息。 Offs...

2022-12-10 726 阅读

spark streaming拉取kafka数据，结合sparkSql dataframe hive存储计算，输出到mysql. 数据清洗过程比较复杂，没办法，上游给的屡一样的数据，正则去解析并全量按时间取最新一条去重。每天k...

2022-12-10 507 阅读

背景： kafka流量在800M/s,前任留下的程序大量数据丢失，且逻辑生成复杂，查询hive直接奔溃，优化从两方面，程序优化及小文件合并（生成结果产生大量小文件）程序直接上代码，啥也不说了程...

2022-12-10 472 阅读

<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.12</artifactId> <version>0.11.0.0</version&g...

2022-12-10 369 阅读

2

2022-12-10 470 阅读

归档