1.11-1.12 Sqoop导入数据时两种增量方式导入及direct

一、增量数据的导入 1、两种方式 ## query 有一个唯一标识符,通常这个表都有一个字段,类似于插入时间createtime where createtime => 20150924000000000 and createtime < 201...

2022-12-10 205 阅读

1.13-1.15 Sqoop导出数据Export使用

一、export 1、export概述 export工具将一组文件从HDFS导入到RDBMS。目标表必须已经存在于数据库中。根据用户指定的分隔符读取输入文件并将其解析为一组记录, 只有map; # bin/sqoop hel...

2022-12-10 309 阅读

1.16 sqoop options-file参数进行运行任务

sqoop的options-file参数可以像hive的-f 参数那样,执行一个脚本文件,而不是直接在命令行执行; 其中,此脚本文件要遵循一定的格式;参考链接:http://sqoop.apache.org/docs/1.4.5/SqoopUs...

2022-12-10 260 阅读

1.1-1.5 flume架构概述及安装使用

一、flume架构概述 1、flume简介 Flume是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日志数据。它具有基于流数据流的简单灵活的架构。它具有可靠的可靠性机制和许多故...

2022-12-10 274 阅读

1.6-1.7 定义agent 读取日志存入hdfs

一、定义agent,并运行 1、配置文件 #计划 ##收集hive的日志,存到hdfs /opt/cdh-5.3.6/hive-0.13.1-cdh5.3.6/logs/hive.log 命令:tail -f source:Exec source 在启动时运行一个给...

2022-12-10 256 阅读

将 Hive 空值统一为 \N

Hive在使用过程中不可避免需要对NULL、’’(空字符串)进行判断和识别。Hive默认情况下底层存储空值跟其他传统数据库有所不同。 1、hive默认存储空值的规则(1) 不同数据类型对...

2022-12-10 249 阅读

工作流调度器azkaban概述

一、概述 1、 为什么需要工作流调度系统 一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreduce程序、hive脚本等; 各任务单元之间存在时间先后及...

2022-12-10 228 阅读

azkaban3.x安装

一、下载azkaban 官网:https://azkaban.github.io/downloads.html GitHub下载地址:https://github.com/azkaban/azkaban 下载: # git clone https://github.com/azkaban/azkaban.git &...

2022-12-10 219 阅读

azkaban使用案例

一、Command类型的单一job command1.job #command.job type=command command=bash hello.sh   hello.sh #!/bin/bash echo 'hello azkaban'   将job资源文件打包成zip文件: &n...

2022-12-10 201 阅读

Sqoop使用手册

转载请注明出处:http://www.cnblogs.com/xiaodf/ 1 Sqoop概述 2 版本说明 3 驱动安装 3.1 MySQL 4 基本用法 4.1 导入 4.1.1 保护密码 4.1.2 使用其他文件格式 4.1.3 压缩导入的数据 ...

2022-12-10 310 阅读