2022-12

Sqoop笔记

1.下载 https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.7/ 本次下载：https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz 解压到/hom...

2022-12-10 243 阅读

1.5 sqoop安装及基本使用

一、安装sqoop 1、解压 ##解压 # tar zxf sqoop-1.4.5-cdh5.3.6.tar.gz -C /opt/cdh-5.3.6/ 2、/opt/cdh-5.3.6/sqoop-1.4.5-cdh5.3.6/conf/sqoop-env.sh &n...

2022-12-10 242 阅读

1.6-1.10 使用Sqoop导入数据到HDFS及一些设置

一、导数据 1、import和export Sqoop可以在HDFS/Hive和关系型数据库之间进行数据的导入导出，其中主要使用了import和export这两个工具。这两个工具非常强大，提供了很多选项帮助我们完成...

2022-12-10 295 阅读

1.11-1.12 Sqoop导入数据时两种增量方式导入及direct

一、增量数据的导入 1、两种方式 ## query 有一个唯一标识符，通常这个表都有一个字段，类似于插入时间createtime where createtime => 20150924000000000 and createtime < 201...

2022-12-10 245 阅读

1.13-1.15 Sqoop导出数据Export使用

一、export 1、export概述 export工具将一组文件从HDFS导入到RDBMS。目标表必须已经存在于数据库中。根据用户指定的分隔符读取输入文件并将其解析为一组记录，只有map； # bin/sqoop hel...

2022-12-10 347 阅读

1.16 sqoop options-file参数进行运行任务

sqoop的options-file参数可以像hive的-f 参数那样，执行一个脚本文件，而不是直接在命令行执行；其中，此脚本文件要遵循一定的格式；参考链接：http://sqoop.apache.org/docs/1.4.5/SqoopUs...

2022-12-10 296 阅读

1.1-1.5 flume架构概述及安装使用

一、flume架构概述 1、flume简介 Flume是一种分布式，可靠且可用的服务，用于有效地收集，聚合和移动大量日志数据。它具有基于流数据流的简单灵活的架构。它具有可靠的可靠性机制和许多故...

2022-12-10 319 阅读

1.6-1.7 定义agent 读取日志存入hdfs

一、定义agent，并运行 1、配置文件 #计划 ##收集hive的日志，存到hdfs /opt/cdh-5.3.6/hive-0.13.1-cdh5.3.6/logs/hive.log 命令：tail -f source：Exec source 在启动时运行一个给...

2022-12-10 293 阅读

将 Hive 空值统一为 \N

Hive在使用过程中不可避免需要对NULL、’’（空字符串）进行判断和识别。Hive默认情况下底层存储空值跟其他传统数据库有所不同。 1、hive默认存储空值的规则（1）不同数据类型对...

2022-12-10 274 阅读

工作流调度器azkaban概述

一、概述 1、为什么需要工作流调度系统一个完整的数据分析系统通常都是由大量任务单元组成： shell脚本程序，java程序，mapreduce程序、hive脚本等; 各任务单元之间存在时间先后及...

2022-12-10 262 阅读

归档