大数据 Nutch简介

Nutch简介原文出处:http://www.sanesee.com/Nutch作为当今最流行的开源爬虫之一,已被企业广泛使用。Nutch的插件机制使得开发者可以灵活地定制网页抓取策略。Nutch有着悠久的历史,当今大名...

2022-12-22 379 阅读

大数据 大数据Hadoop生态圈介绍

大数据Hadoop生态圈-组件介绍    Hadoop是目前应用最为广泛的分布式大数据处理框架,其具备可靠、高效、可伸缩等特点。    Hadoop的核心组件是HDFS、MapReduce。随着处...

2022-12-21 416 阅读

大数据 ​(四)hive的搭建2

在(三)hive的搭建1中我们搭建好了hive环境,但是只能本地访问,在本节中配置Hive的访问方式。1.元数据服务的方式1.1 编辑hive-site.xml sudo vi hive-site.xml在文件最后增...

2022-12-21 341 阅读

大数据 ​(三)hive的搭建1

下载访问官方网站https://hive.apache.org/点击downloads点击Download a release now!点击https://dlcdn.apache.org/hive/选择最新的稳定版复制最新的url在linux执行下载命令wget  ...

2022-12-20 275 阅读

大数据 (二)hadoop搭建

1. 下载 访问https://hadoop.apache.org/releases.html查看hadoop最新下载地址wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz2.解压tar zxvf&nbs...

2022-12-17 282 阅读

云计算 ssh-keygen和ssh-copy-id实现免密登录远程主机

ssh免密登录在实际工作中有重要的作用,甚至有的应用部署也必须要免密登录远程主机,例如hadoop环境搭建。 免密登录,需要先在本机生成公钥,然后将公钥拷贝到远程主机,拷贝的过程,既可以...

2022-12-15 420 阅读

大数据 (一)hadoop搭建之环境准备

1.参考http://www.fogsvc.com/97.html文档设置三台虚拟机并固定ip192.168.1.10   hadoop-master192.168.1.11   hadoop-slave1192.168.1.12   hadoop-slave21....

2022-12-15 283 阅读

大数据 GIS:开源webgl大数据地图类库整理

随着webgl的发展,涌现了一大批的地图大数据展示类库,有商用的,也有开源的,这里整理了一些典型的开源类库。一、echarts及echarts-gl国内百度开源的图表类库,熟知的是做各类统计图,其中...

2022-12-10 335 阅读

大数据 大数据开发之Sqoop篇----sqoop export

sqoop export是指将HDFS上的数据导出到RDBMS上,而在RDBMS上目标表要已经存在了。 输入格式一般是:sqoop export command args / sqoop-export command args 一般的参数(这里我只列出一些我...

2022-12-10 320 阅读

大数据 大数据Hadoop生态圈介绍

  转自:https://blog.csdn.net/qq_25062299/article/details/95592877  

2022-12-10 244 阅读