1.11-1.12 Sqoop导入数据时两种增量方式导入及direct
一、增量数据的导入 1、两种方式 ## query 有一个唯一标识符,通常这个表都有一个字段,类似于插入时间createtime where createtime => 20150924000000000 and createtime < 201...
1.13-1.15 Sqoop导出数据Export使用
一、export 1、export概述 export工具将一组文件从HDFS导入到RDBMS。目标表必须已经存在于数据库中。根据用户指定的分隔符读取输入文件并将其解析为一组记录, 只有map; # bin/sqoop hel...
1.16 sqoop options-file参数进行运行任务
sqoop的options-file参数可以像hive的-f 参数那样,执行一个脚本文件,而不是直接在命令行执行; 其中,此脚本文件要遵循一定的格式;参考链接:http://sqoop.apache.org/docs/1.4.5/SqoopUs...
1.1-1.5 flume架构概述及安装使用
一、flume架构概述 1、flume简介 Flume是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日志数据。它具有基于流数据流的简单灵活的架构。它具有可靠的可靠性机制和许多故...
1.6-1.7 定义agent 读取日志存入hdfs
一、定义agent,并运行 1、配置文件 #计划 ##收集hive的日志,存到hdfs /opt/cdh-5.3.6/hive-0.13.1-cdh5.3.6/logs/hive.log 命令:tail -f source:Exec source 在启动时运行一个给...
将 Hive 空值统一为 \N
Hive在使用过程中不可避免需要对NULL、’’(空字符串)进行判断和识别。Hive默认情况下底层存储空值跟其他传统数据库有所不同。 1、hive默认存储空值的规则(1) 不同数据类型对...
工作流调度器azkaban概述
一、概述 1、 为什么需要工作流调度系统 一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreduce程序、hive脚本等; 各任务单元之间存在时间先后及...
azkaban3.x安装
一、下载azkaban 官网:https://azkaban.github.io/downloads.html GitHub下载地址:https://github.com/azkaban/azkaban 下载: # git clone https://github.com/azkaban/azkaban.git &...
azkaban使用案例
一、Command类型的单一job command1.job #command.job type=command command=bash hello.sh hello.sh #!/bin/bash echo 'hello azkaban' 将job资源文件打包成zip文件: &n...
Sqoop使用手册
转载请注明出处:http://www.cnblogs.com/xiaodf/ 1 Sqoop概述 2 版本说明 3 驱动安装 3.1 MySQL 4 基本用法 4.1 导入 4.1.1 保护密码 4.1.2 使用其他文件格式 4.1.3 压缩导入的数据 ...