Sqoop笔记

1.下载 https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.7/ 本次下载:https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz 解压到/hom...

2022-12-10 197 阅读

1.5 sqoop安装及基本使用

一、安装sqoop 1、解压 ##解压 # tar zxf sqoop-1.4.5-cdh5.3.6.tar.gz -C /opt/cdh-5.3.6/   2、/opt/cdh-5.3.6/sqoop-1.4.5-cdh5.3.6/conf/sqoop-env.sh    &n...

2022-12-10 196 阅读

1.6-1.10 使用Sqoop导入数据到HDFS及一些设置

一、导数据 1、import和export Sqoop可以在HDFS/Hive和关系型数据库之间进行数据的导入导出,其中主要使用了import和export这两个工具。这两个工具非常强大, 提供了很多选项帮助我们完成...

2022-12-10 262 阅读

1.11-1.12 Sqoop导入数据时两种增量方式导入及direct

一、增量数据的导入 1、两种方式 ## query 有一个唯一标识符,通常这个表都有一个字段,类似于插入时间createtime where createtime => 20150924000000000 and createtime < 201...

2022-12-10 202 阅读

1.13-1.15 Sqoop导出数据Export使用

一、export 1、export概述 export工具将一组文件从HDFS导入到RDBMS。目标表必须已经存在于数据库中。根据用户指定的分隔符读取输入文件并将其解析为一组记录, 只有map; # bin/sqoop hel...

2022-12-10 305 阅读

1.16 sqoop options-file参数进行运行任务

sqoop的options-file参数可以像hive的-f 参数那样,执行一个脚本文件,而不是直接在命令行执行; 其中,此脚本文件要遵循一定的格式;参考链接:http://sqoop.apache.org/docs/1.4.5/SqoopUs...

2022-12-10 255 阅读

1.1-1.5 flume架构概述及安装使用

一、flume架构概述 1、flume简介 Flume是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日志数据。它具有基于流数据流的简单灵活的架构。它具有可靠的可靠性机制和许多故...

2022-12-10 268 阅读

1.6-1.7 定义agent 读取日志存入hdfs

一、定义agent,并运行 1、配置文件 #计划 ##收集hive的日志,存到hdfs /opt/cdh-5.3.6/hive-0.13.1-cdh5.3.6/logs/hive.log 命令:tail -f source:Exec source 在启动时运行一个给...

2022-12-10 253 阅读

将 Hive 空值统一为 \N

Hive在使用过程中不可避免需要对NULL、’’(空字符串)进行判断和识别。Hive默认情况下底层存储空值跟其他传统数据库有所不同。 1、hive默认存储空值的规则(1) 不同数据类型对...

2022-12-10 244 阅读

工作流调度器azkaban概述

一、概述 1、 为什么需要工作流调度系统 一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreduce程序、hive脚本等; 各任务单元之间存在时间先后及...

2022-12-10 224 阅读