大数据 - java开发笔记

导语：在现代数据处理中，Spring Boot 项目集成 Kafka 和 Flink 流处理框架是实现实时数据处理和分析的关键。本文将为您介绍具体步骤和相关代码，帮...

2024-05-15 462 阅读

Kylin 依赖环境安装 Kylin 前需先部署好 Hadoop、Hive、Zookeeper、Hbase、Spark，并且需要在/etc/profile 中配置以下环境变量 HADOOP_HOME，HIVE_HOME，HBASE_HOME，SPARK_HOME 记得 sourc...

2023-11-03 372 阅读

1 Kylin是什么在大数据处理技术领域，用户最普遍的诉求就是希望以很简易的方式从大数据平台上快速获取查询结果，同时也希望传统的商务智能工具能够直接和大数据平台连接起来，以便使用这些...

2023-11-03 371 阅读

1.1 Data Sink 数据输出经过一系列Transformation转换操作后，最后一定要调用Sink操作，才会形成一个完整的DataFlow拓扑。只有调用了Sink操作，才会产生最终的计算结果，这些...

2023-11-03 379 阅读

将flink提交到集群中运行，可以看到job的的执行计划、占用的资源情况、Task的数量和并行度、内存、checkpoint等信息。但是将必须先job打成jar包，然后通过web页面或命令行提交到集群中执行。...

2023-11-03 406 阅读

1.1 Data Source数据源在实时计算DataStream API中，Source是用来获取外部数据源的操作，按照获取数据的方式，可以分为：基于集合的Source、基于Socket网络端口的Source、基...

2023-11-03 384 阅读

1 Flink编程入门1.1 初始化Flink项目模板1.1.1 准备工作要求安装Maven 3.0.4 及以上版本和JDK 81.1.2 使用maven命令创建java项目模板执行maven命令，如果maven本地仓库...

2023-11-03 358 阅读

1、standalone模式搭建standalone模式是Flink自带的分布式集群模式，不依赖其他的资源调度框架；这里使用三台主机搭建，86可以免密登录到88、89：172.17.28.86 cs-28-86172.17.2...

2023-11-03 383 阅读

这几年，在整个大数据领域，Flink可算是火得一塌糊，不但将阿里Blink中的大部分特性merge到社区的Flink中，使得Flink在流式实时计算领域更是一骑绝尘，让其他实时计算框架只能望其项背，目前...

2023-11-03 338 阅读

ClickHouse是一款开源的列式数据库管理系统，专为大规模数据仓库和数据分析应用而设计。它允许用户快速地存储和处理海量数据，同时提供了简单易用的SQL接口。本文将介绍ClickHouse的概念、技...

2023-08-11 385 阅读

归档