偶然发现以前做过的作业,发上来供后来人参考参考。 文档最后更新于 2020-12 可能和现在有出入
本hadoop搭建教程 为
(ps:这本书长这个样)
第10章的部分内容。当然,书里的内容很简略,而且还埋着不少坑。 这篇博文,既是作业,也是保姆级教程,应该算是非常详细了吧。
如果你们学校也用这本书要做hadoop作业,可以参考本教程。
建议配置: 虚拟机 | hostname | 处理器 | 内存 | 硬盘 ---- | ---- | ---- | ---- | ---- | ---- ubuntu1 | master | 四核 | 2G | 40G ubuntu2 | slave1 | 双核 | 2G | 40G ubuntu3 | slave2| 双核 | 2G | 40G
略
三台虚拟机我设想的IP分配:
因为我的路由器是
路由器下的连接设备分配的ip为
而且,我的虚拟机的网络为
所以,我的虚拟机分配的ip是
| 虚拟机 | hostname | ip |
|---|---|---|
| ubuntu1 | master | 192.168.0.129 |
| ubuntu2 | slave1 | 192.168.0.130 |
| ubuntu3 | slave2 | 192.168.0.131 |
根据以上表格,我们来配置主机网络
选择
- -
地址填写
子网掩码
网关填写 是因为我要让数据走旁路由处理(国外下载加速)
毕竟待会ubuntu下载东西可能需要下载到国外的资源
使用旁路由还需要把 改为
行后插入
执行
如果显示不活动,不用管。如果显示活动,就需要关闭
下载Jdk(略)
把 放在 目录
在 下打开终端 执行
在 下解压 tar.gz
解压成功后会获得一个 的文件夹 ,我们要将它改名为 ,在 下执行
最后,收尾工作,修改 文件
在文档末尾插入如下代码
保存,执行如下命令让文档生效
-
!!
- - - - 的按钮多戳几下,这样才保险
= >
= >
记得修改hostname
这一步很重要,请务必按步骤认真做,不然会导致后面hadoop
开启失败
slave1,slave2虚拟机执行
密钥
再执行
slave2再执行
把 和 的 ssh 密钥发到 后,在 虚拟机执行
检查 master 的 目录下的.ssh里面有没有 和 和
虚拟机在目录下执行
和 上分别执行
最后,验证在master主机能否不输密码ssh到其他主机 分别执行
和
如果在yes之后可以免密码登录,就是成功
首先,把下载的hadoop弄到你的
目录下,执行解压命令
里
执行
在之前java的后面插入如下代码
最后执行让修改生效
依次修改 下的
,把写成绝对地址,如下
内容为
的中插入
的中插入
的中插入
的中插入
以上文件修改完之后,复制整个修改后的hadoop文件夹,到其余没有配置的虚拟机上,三台虚拟机都要配置好
配置好之后, 目录执行指令格式化HDFS文件系统
启动hadoop集群
检查是否正常启动
目录下右键打开终端,运行稍等片刻,你的家里有有一个叫的文件夹,里面装满了你想要的东西
如果你的加速访问github的梯子不稳定的话,可能会出现下一半报错终止下载的情况,这时我们可以手动在github网站下载解压
浏览器打开
按上图的顺序,依次点击下载bdintro
正确执行3.1.1步骤后会得到以下文件
在正式使用mvn package编译Jar包之前,我们需要安装依赖,不然,会提示
打开终端,执行
输入密码后,按yes确定安装
下打开终端,执行
这时就开始滚代码了
不过接下来如果你网络不好的话,会报错
这时你就需要梯子的帮助了,在梯子的buff加成下
成功后可以在 中得到jar包
在hdfs文件系统创建input文件夹
浏览器打开你master主机的,有显示一个input的文件夹表示创建成功
把之前下载的 的 从 解压出来
上传到hdfs的input文件夹里
目录下创建 输入以下内容
确保 放在家目录下
已经放在 文件夹下执行
运行完之后打开 会多出两个文件夹
文件夹下 有 即表示成功执行大数据分析,另一个文件就是我们要的结果,直接点击用浏览器下载
如果用宿主机直接打开的话会没法下载,把 换成 就可以了
part-r-00000 内容
同3.1.4 唯一不同的就是脚本和结果
生成结果
[toc]
