基于docker搭建hadoop

基于docker搭建hadoop
介绍：使用ubuntu 16.04安装docker，并在docker上面配置hadoop集群
本文参考https://zhuanlan.zhihu.com/p/59758201

1 安装docker
安装docker
wget -qO- https://get.docker.com/ | sh

启动docker服务
sudo service docker start

2 docker拉取ubuntu镜像
创建虚拟网络，方便集群间进行通信
sudo docker network create –driver=bridge hadoop

拉取ubuntu16镜像
sudo docker pull ubuntu:16.04

创建一个ubuntu16容器
sudo docker run -it ubuntu:16.04 /bin/bash
3 安装JDK 1.8
换阿里源（可选）
修改文件 /etc/apt/sources.list
deb http://mirrors.aliyun.com/ubuntu/ xenial main
deb-src http://mirrors.aliyun.com/ubuntu/ xenial main

deb http://mirrors.aliyun.com/ubuntu/ xenial-updates main
deb-src http://mirrors.aliyun.com/ubuntu/ xenial-updates main

deb http://mirrors.aliyun.com/ubuntu/ xenial universe
deb-src http://mirrors.aliyun.com/ubuntu/ xenial universe
deb http://mirrors.aliyun.com/ubuntu/ xenial-updates universe
deb-src http://mirrors.aliyun.com/ubuntu/ xenial-updates universe

deb http://mirrors.aliyun.com/ubuntu/ xenial-security main
deb-src http://mirrors.aliyun.com/ubuntu/ xenial-security main
deb http://mirrors.aliyun.com/ubuntu/ xenial-security universe
deb-src http://mirrors.aliyun.com/ubuntu/ xenial-security universe

注：使用echo导入上面信息，如要换行符\n需要使用加上命令-e，如echo -e “deb http://mirrors.aliyun.com/ubuntu/ xenial main\ndeb-src …” > /etc/apt/sources.list 这里默认是-E，表示不转义。

更新源
apt update

安装JDk1.8（这里也可以下载官网的Oracle的JDK）
apt install openjdk-8-jdk

测试jdk安装：java -version

4 安装Scala
命令行安装
apt install scala

测试安装
scale

注：scale执行命令前需要添加冒号”:”，如”:help”.

5 配置 SSH
集群间需要使用SSH互相通信

安装SSH
apt-get install openssh-server
apt-get install openssh-client

生成密钥，免密登录
cd ~
ssh-keygen -t rsa -P “”
cat .ssh/id_rsa.pub >> .ssh/authorized_keys

测试免密登录
ssh 127.0.0.1

配置SSH服务开机自启动
vim ~/.bashrc
// 在文件最下面添加一行
service ssh start

6 安装 Hadoop
下载hadoop
wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz

可以直接浏览器下载https://hadoop.apache.org/releases.html，如果下载失败可以换源：
https://mirrors.bfsu.edu.cn/apache/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz
https://mirror.bit.edu.cn/apache/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz
https://downloads.apache.org/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz

解压并重命名
tar -zxvf hadoop-3.2.1.tar.gz -C /usr/local/
cd /usr/local/
mv hadoop-3.2.1 hadoop

7 配置hadoop
编辑/etc/profile，在文件最后加入以下内容
#java
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
#hadoop
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_CONF_DIR=$HADOOP_HOME
export HADOOP_LIBEXEC_DIR=$HADOOP_HOME/libexec
export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native:$JAVA_LIBRARY_PATH
export HADOOP_CONF_DIR=$HADOOP_PREFIX/etc/hadoop
export HDFS_DATANODE_USER=root
export HDFS_DATANODE_SECURE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export HDFS_NAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

使上述修改生效
source /etc/profile

修改/usr/local/hadoop/etc/hadoop/hadoop-env.sh
在文件最后追加以下内容
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

修改/usr/local/hadoop/etc/hadoop/core-site.xml
将文件内容修改为以下内容，其中h01为主机名字，可在/etc/hosts中添加
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://h01:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop3/hadoop/tmp</value>
</property>
</configuration>

修改/usr/local/hadoop/etc/hadoop/hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/home/hadoop3/hadoop/hdfs/name</value>
</property>
<property>
<name>dfs.namenode.data.dir</name>
<value>/home/hadoop3/hadoop/hdfs/data</value>
</property>
</configuration>

修改/usr/local/hadoop/etc/hadoop/mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.application.classpath</name>
<value>
/usr/local/hadoop/etc/hadoop,
/usr/local/hadoop/share/hadoop/common/*,
/usr/local/hadoop/share/hadoop/common/lib/*,
/usr/local/hadoop/share/hadoop/hdfs/*,
/usr/local/hadoop/share/hadoop/hdfs/lib/*,
/usr/local/hadoop/share/hadoop/mapreduce/*,
/usr/local/hadoop/share/hadoop/mapreduce/lib/*,
/usr/local/hadoop/share/hadoop/yarn/*,
/usr/local/hadoop/share/hadoop/yarn/lib/*
</value>
</property>
</configuration>

修改/usr/local/hadoop/etc/hadoop/yarn-site.xml
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>h01</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
修改/usr/local/hadoop/etc/hadoop/workers
h01
h02
h03
h04
8 创建4个一样的容器
将上面配置的容器导出为镜像
sudo docker commit -m “myhadoop:v1” -a “user” fab4da838c2f myhadoop:v1

创建namenode，因为使用的是docker，所以需要将docker的可访问端口映射出来。docker内部容器需要互相访问，这里使用之前创建的虚拟网络hadoop。
sudo docker run -it –network hadoop -h “h01” –name “h01” -p 9870:9870 -p 8088:8088 myhadoop:v1 /bin/bash

创建datanode，这里需要加入上面创建的虚拟网络hadoop才能被namenode访问。如果使用端口映射需要更换映射出的端口，避免端口冲突。
sudo docker run -it –network hadoop -h “h02” –name “h02” -myhadoop:v1 /bin/bash
sudo docker run -it –network hadoop -h “h03” –name “h03” -myhadoop:v1 /bin/bash
sudo docker run -it –network hadoop -h “h04” –name “h04” -myhadoop:v1 /bin/bash

启动四个新创建的容器
sudo docker start 容器h01的id 容器h02的id 容器h03的id 容器h04的id

查看各个容器的ip，并配置四个容器的\etc\hosts文件
查看ip:
ifconfig
修改文件，在文件最下面加入以下内容，根据实际情况配置
172.19.0.2 h01
172.19.0.3 h02
172.19.0.4 h03
172.19.0.5 h04
进入容器使用exec，如果使用attach将会在执行exit时关闭容器
sudo docker exec -it 容器id /bin/bash

9 在h01中启动hadoop
格式化
切换目录
cd /usr/local/hadoop/bin
执行格式化
./hadoop namenode -format

注：如进行多次格式化，需要删除临时存储目录tmp和namenode元数据目录
tmp位置：core-site.xml配置文件中的hadoop.tmp.dir
元数据位置：hdfs-site.xml配置文件中的dfs.namenode.name.dir

启动集群
cd /usr/local/hadoop/sbin
./start-all.sh

关闭集群执行脚本./stop-all.sh

此时访问本机的 8088 与 9870 端口就可以看到监控信息了

查看分布式文件系统的状态
cd /usr/local/hadoop/bin
./hadoop dfsadmin -report

10 运行内置WordCount例子
把license作为需要统计的文件
cd /usr/local/hadoo
cat LICENSE.txt > file1.txt

在 HDFS 中创建 input 文件夹
cd /usr/local/hadoop/bin
./hadoop fs -mkdir /input

上传 file1.txt 文件到 HDFS 中
./hadoop fs -put ../file1.txt /input

查看 HDFS 中 input 文件夹里的内容
./hadoop fs -ls /input

运作 wordcount 例子程序
./hadoop jar ../share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar wordcount /input /output

查看 HDFS 中的 /output 文件夹的内容
./hadoop fs -ls /output

查看 part-r-00000 文件的内容
./hadoop fs -cat /output/part-r-00000

————————————————
版权声明：本文为CSDN博主「zhao-yan」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/zy1314567/article/details/107313866

相关文章

归档