hadoop搭建和数据分析保姆级教程 – 云计算导论(第二版) 清华大学出版社

前言

偶然发现以前做过的作业，发上来供后来人参考参考。文档最后更新于 2020-12 可能和现在有出入

本hadoop搭建教程为

(ps:这本书长这个样)

第10章的部分内容。当然，书里的内容很简略，而且还埋着不少坑。这篇博文，既是作业，也是保姆级教程，应该算是非常详细了吧。

如果你们学校也用这本书要做hadoop作业，可以参考本教程。

step 0. 实验环境

正常的笔记本一台
- 系统：
- CPU：
- 运行内存：

可正常连接互联网的路由器一台
- 网关：
- 分配地址：

可加速外网访问的openwrt x86旁路由一台，用于加速github等访问（通过x86虚拟机运行于nas服务器）
- 网关：
- 分配地址：

（可选）开启smb服务的nas服务器一台，用于虚拟机之间的文件共享
- 系统：
- 运存：

（可选）docker部署的私有为知笔记服务，用于编写这份文档（运行于nas服务器）

step 1.构建虚拟机网络（对应课本10.5.2）

1.1 VirtualBox的安装和配置

建议配置：虚拟机 | hostname | 处理器 | 内存 | 硬盘 ---- | ---- | ---- | ---- | ---- | ---- ubuntu1 | master | 四核 | 2G | 40G ubuntu2 | slave1 | 双核 | 2G | 40G ubuntu3 | slave2| 双核 | 2G | 40G

略

1.2 Ubuntu网络配置

1.2.1 配置网络

三台虚拟机我设想的IP分配：

因为我的路由器是路由器下的连接设备分配的ip为而且，我的虚拟机的网络为所以，我的虚拟机分配的ip是

虚拟机	hostname	ip
ubuntu1	master	192.168.0.129
ubuntu2	slave1	192.168.0.130
ubuntu3	slave2	192.168.0.131

根据以上表格，我们来配置主机网络选择

点击

选择 - - 地址填写子网掩码网关填写是因为我要让数据走旁路由处理（国外下载加速）毕竟待会ubuntu下载东西可能需要下载到国外的资源

如果你没有旁路由就不要学我，老老实实的填写

使用旁路由还需要把改为

虚拟机内打开任意一个国外网站，可以正常打开，说明已经成功连接旁路由，加速国外可以正常使用

1.2.2 修改主机名（hostname）

这里我们把内容改为

1.2.3 修改hosts

在行后插入

1.2.4 关闭防火墙

执行

如果显示不活动，不用管。如果显示活动，就需要关闭

1.3 安装hadoop前的准备

1.3.1 安装必要软件包

1.3.2 安装JDK

下载Jdk（略）把放在目录在下打开终端执行

在下解压 tar.gz

解压成功后会获得一个的文件夹，我们要将它改名为，在下执行

最后，收尾工作，修改文件

在文档末尾插入如下代码

保存，执行如下命令让文档生效

step 2.大数据环境安装（对应课本10.5.3）

2.1 克隆两台虚拟机slave1和slave2

一定要选择！！

等它克隆，我们喝口茶先~

两台虚拟机克隆完了进 - - - - 的按钮多戳几下，这样才保险

启动新克隆的两台虚拟机，配置网络，ipv4的ip分别为 = > = >

记得修改hostname

2.2 配置SSH

这一步很重要，请务必按步骤认真做，不然会导致后面hadoop 开启失败

slave1，slave2虚拟机执行

生成密钥再执行

slave2再执行

把和的 ssh 密钥发到后，在虚拟机执行

检查 master 的目录下的.ssh里面有没有和和

有的哈就可以合并密钥来免密登陆了虚拟机在目录下执行

然后在和上分别执行

最后，验证在master主机能否不输密码ssh到其他主机分别执行

和

如果在yes之后可以免密码登录，就是成功

2.3 正式安装Hadoop

首先，把下载的hadoop弄到你的

目录下，执行解压命令

复制到里

执行

在之前java的后面插入如下代码

最后执行让修改生效

2.4 配置hadoop

依次修改下的，把写成绝对地址，如下

修改内容为

的中插入

以上文件修改完之后，复制整个修改后的hadoop文件夹，到其余没有配置的虚拟机上，三台虚拟机都要配置好

配置好之后，目录执行指令格式化HDFS文件系统

启动hadoop集群

检查是否正常启动

step 3.大数据环境分析（对应课本10.5.4）

3.1 日志分析

3.1.1 下载详细完整代码和数据

方法1：（适用于有稳定的梯子的同学）使用git clone 把仓库克隆下来在目录下右键打开终端，运行

稍等片刻，你的家里有有一个叫的文件夹，里面装满了你想要的东西

如果你的加速访问github的梯子不稳定的话，可能会出现下一半报错终止下载的情况，这时我们可以手动在github网站下载解压

方法2：在github网站下载

浏览器打开

https://github.com/bdintro/bdintro

按上图的顺序，依次点击下载bdintro

3.1.2 mvn package编译Jar包

正确执行3.1.1步骤后会得到以下文件

在正式使用mvn package编译Jar包之前，我们需要安装依赖，不然，会提示

打开终端，执行

输入密码后，按yes确定安装

安装完成后，重头戏来了在下打开终端，执行

这时就开始滚代码了

不过接下来如果你网络不好的话，会报错

这时你就需要梯子的帮助了，在梯子的buff加成下

成功后可以在中得到jar包

3.1.3 做两个实例前的热身

在hdfs文件系统创建input文件夹

浏览器打开你master主机的，有显示一个input的文件夹表示创建成功

3.1.4 使用Jar包执行日志分析

把之前下载的的从解压出来

上传到hdfs的input文件夹里

目录下创建输入以下内容

确保放在家目录下已经放在文件夹下执行

运行完之后打开会多出两个文件夹

文件夹下有即表示成功执行大数据分析，另一个文件就是我们要的结果，直接点击用浏览器下载

如果用宿主机直接打开的话会没法下载，把换成就可以了

part-r-00000 内容

3.1.5 交通流量分析

同3.1.4 唯一不同的就是脚本和结果

生成结果

[toc]