搜档网
当前位置:搜档网 › 实验一__hadoop_安装配置

实验一__hadoop_安装配置

实验一hadoop 安装配置

一、实验目的

掌握hadoop平台安装配置方法,认识hadoop平台构成;熟悉hadoop平台基本命令的使用。

二、实验内容

1、安装配置hadoop平台

2、熟悉hadoop常用命令

3、运行MapReduce例程

三、实验步骤

(一)安装java JDK

查看java是否安装,如果没有先安装java

(二)ssh配置

1、用ssh localhost登录,查看ssh无密码登录是否配置;

2、如果没有配置,执行命令:

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys (三)下载、安装hadoop

1、下载hadoop2.6.0

2、解压hadoop-2.6.0.tar, tar -xzvf hadoop-2.6.0.tar.gz

3、配置 etc/hadoop/hadoop-env.sh文件-->修改JAVA_HOME,

export JAVA_HOME=/usr/lib/jvm/java-1.7.0

(四)单机模式运行例程

1、hadoop主目录,运行命令

mkdir input

cp ./etc/hadoop/*.xml input # 将配置文件作为输入文件

./bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output 'dfs[a-z.]+'

cat ./output/*

2、简要分析结果

(五)伪分布式配置

1、配置

Hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/ 中,伪分布式需要修改2个配置文件 core-site.xml 和 hdfs-site.xml 。

Hadoop的配置文件是 xml 格式,每个配置以声明 property 的 name 和value 的方式来实现。

2、执行 namenode 的格式化

/hdfs namenode -format

3、开启 NaneNode 和 DataNode 守护进程

sbin/start-dfs.sh

4、查看状态,通过命令 jps 来判断是否成功启动

5、Web 界面 http://localhost:50070 来查看 Hadoop 的信息

(六)练习HDFS命令

1、建立子目录

2、拷贝本地文件到HDFS文件目录

3、查看HDFS 目录及文件信息

4、在HDFS目录直接拷贝文件

5、拷贝文件到本地目录

6、删除HDFS文件

7、删除HDFS目录

(七)Hadoop伪分布式实例-WordCount

1、创建用户目录

bin/hdfs dfs -mkdir -p /user/hadoop

2、在用户目录下创建 input

bin/hdfs dfs -mkdir input

3、将etc/hadoop下的xml文件拷贝到input

bin/hdfs dfs -put etc/hadoop/*.xml input

复制后,可查看目录中的内容,bin/hdfs dfs -ls input

4、运行wordcount

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output 'dfs[a-z.]+'

5、查看运行结果

bin/hdfs dfs -cat output/*

6、也可以将运行结果取回到本地

四、分析总结、撰写实验报告

1、说明主要过程和结果

2、对结果简要分析

3、对hadoop认识体会

(1)安装java JDK

(2)配置环境变量

使配置文件生效

在hadoop/etc/hadoop/hadoop-env.sh配置环境变量

另外还可以单独配置

安装ssh

开启服务

分析总结:

本次的实验主要是环境的搭建,实在Ubuntu上边进行搭建的,按照一般的流程进行JDK的安装,和环境变量的设置,是一般的流程,对于Hadoop的环境搭建是第一次,其中遇到了很多问题,反复试了几次,在晚上也搜了一些资料,最后是终于搞定。

Hadoop是借助开源的力量在Google的三篇论文的基础上进行的一次实验,之所以能够快速的风靡,是因为他为我们提供了独特的存储方式,使我们可以通过数据处理工具与数据进行快速高效的处理,另外强大的容错能力也是很多大型企业选择的一个重要原因,总的来说使用Hadoop对企业的成本效益有巨大的好处。

Hadoop是在Lucene和Nutch的基础上发展起来的。Lucene并不是一个应用程序,只是提供了一个Java的全安稳搜索引擎应用,可以方便的嵌入到各种实际应用的中文检索中来。而Hadoop做为存储分布式的文件系统,具有越来越重要的作用。

相关主题