搜档网
当前位置:搜档网 › 大数据培训教程Hadoop的mapreduce搭建-北京尚学堂

大数据培训教程Hadoop的mapreduce搭建-北京尚学堂

大数据培训教程Hadoop的mapreduce搭建-北京尚学堂
大数据培训教程Hadoop的mapreduce搭建-北京尚学堂

北京尚学堂提供

Hadoop的mapreduce搭建

MapReduce

首先是spliting吧一个块切割成各种小的

MapReduce的split大小

Max.split(100M)

Min.split(10M)

Block(64M)

Max(min.split, min(max.split,block))

MapReduce的架构

主多从结构

主JobTracker:

负责调度分配每个子任务taskTracker上,如果发现有失败的task就重新分配其任务到其他节点,每个hadoop集群中只一个JobTracker一般它运行在Master节点上(也就是secondaryNode)从TaskTracker

Tasktracker主动与JobTracker通信,接收作业,并负责直接执行每一个任务,为了减少网络带宽TaskTracker最好运行在HDFS的datanode上

开始搭建

我们随意指定一台机器为主JobTracker

我们用node2作为JobTracker

修改配置文件

后面的TaskTracker不用直接配,默认就是其他datanode 吧这个文件发到其他主机上

传好之后启动

然后我们的第一个节点

也就是我们的JobTracker是

我们其他的datanode是

结果:

【最新文档更新请加入尚学堂https://www.sodocs.net/doc/f21223512.html,】

【专业hadoop大数据培训机构,真正零首付入学https://www.sodocs.net/doc/f21223512.html,】

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu_CentOS

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu/CentOS 本教程讲述如何配置Hadoop 集群,默认读者已经掌握了Hadoop 的单机伪分布式配置,否则请先查看Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置。 本教程由厦门大学数据库实验室出品,转载请注明。本教程适合于原生Hadoop 2,包括Hadoop 2.6.0, Hadoop 2.7.1 等版本,主要参考了官方安装教程,步骤详细,辅以适当说明,保证按照步骤来,都能顺利安装并运行Hadoop。另外有Hadoop安装配置简略版方便有基础的读者快速完成安装。 为了方便新手入门,我们准备了两篇不同系统的Hadoop 伪分布式配置教程。但其他Hadoop 教程我们将不再区分,可同时适用于Ubuntu 和CentOS/RedHat 系统。例如本教程以Ubuntu 系统为主要演示环境,但对Ubuntu/CentOS 的不同配置之处、CentOS 6.x 与CentOS 7 的操作区别等都会尽量给出注明。 环境 本教程使用Ubuntu 14.04 64位作为系统环境,基于原生Hadoop 2,在Hadoop 2.6.0 (stable)版本下验证通过,可适合任何Hadoop 2.x.y 版本,例如Hadoop 2.7.1,Hadoop 2.4.1 等。 本教程简单的使用两个节点作为集群环境: 一个作为Master 节点,局域网IP 为192.168.1.121;另一个作为Slave 节点,局域网IP 为192.168.1.122。 准备工作 Hadoop 集群的安装配置大致为如下流程: 1.选定一台机器作为Master 2.在Master 节点上配置hadoop 用户、安装SSH server、安装Java 环境 3.在Master 节点上安装Hadoop,并完成配置 4.在其他Slave 节点上配置hadoop 用户、安装SSH server、安装Java 环境 5.将Master 节点上的/usr/local/hadoop 目录复制到其他Slave 节点上 6.在Master 节点上开启Hadoop 配置hadoop 用户、安装SSH server、安装Java 环境、安装Hadoop 等过程已经在Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置中有详细介绍,请前往查看,不再重复叙述。 继续下一步配置前,请先完成上述流程的前 4 个步骤。 网络配置 假设集群所用的节点都位于同一个局域网。 如果使用的是虚拟机安装的系统,那么需要更改网络连接方式为桥接(Bridge)模式,才能实现多个节点互连,例如在VirturalBox 中的设置如下图。此外,如果节点的系统是在虚拟机中直接复制的,要确保各个节点的Mac 地址不同(可以点右边的按钮随机生成MAC 地址,否则IP 会冲突):

hadoop2.7.2 伪分布式安装

hadoop:建立一个单节点集群伪分布式操作 安装路径为:/opt/hadoop-2.7.2.tar.gz 解压hadoop: tar -zxvf hadoop-2.7.2.tar.gz 配置文件 1. etc/hadoop/hadoop-env.sh export JAVA_HOME=/opt/jdk1.8 2. etc/hadoop/core-site.xml fs.defaultFS hdfs://localhost:9000 hadoop.tmp.dir file:/opt/hadoop-2.7.2/tmp 3. etc/hadoop/hdfs-site.xml https://www.sodocs.net/doc/f21223512.html,.dir file:/opt/hadoop-2.7.2/dfs/name dfs.datanode.data.dir file:/opt/hadoop-2.7.2/dfs/data dfs.replication 1 dfs.webhdfs.enabled true

Hadoop、hive环境搭建详解

一、
Hadoop 环境搭建 首先在 Apache 官网下载 hadoop 的包 hadoop-0.20.2.tar.gz。 解压 hadoop-0.20.2.tar.gz 包,具体命令如下: tar zxvf hadoop-0.20.2.tar.gz 其中要注意的是,tar 包用 xvf ,gz 包用 zxvf。
在安装中,如果遇到识别问题,或者无法解压,很有可能是权限问题,解决方案 是修改此文件的使用权限,命令如下: chmod 777 hadoop-0.20.2.tar.gz 其中,777 为所有权限。 如果依然报错,如:Archive contains obsolescent base-64 headers;Error exit delayed from previous errors。 这种情况,一般是压缩包损坏的问题。因为大多数人会将包下载到 windows 环境,再通过 ftp 等方法上传到 Linux 环境。容易产生包损坏。建议大 家直接下载到 Linux 即可。具体命令如下: wget https://www.sodocs.net/doc/f21223512.html,/apache-mirror/hadoop/core/hadoop-0.20.2/ hadoop-0.20.2.tar.gz 直接下载到当前目录。 当文件准备好之后,我们要修改配置,将 Hadoop 简单 run 起来。 首先,我们进入 hadoop-0.20.2/conf 目录当中,其中会存在如下配置文件: 首先修改 masters 和 slaves,这个是指定我们的 m 和 s 的 ip 地址,这里我们 就以单台机器为例子,在文件中直接输入当前机器的 IP。 之后我们修改 mapred-site.xml 文件,具体配置如下 Xml 代码 1. 2. 3.

hadoop伪分布式搭建2.0

1. virtualbox安装 1. 1. 安装步骤 1. 2. virtualbox安装出错情况 1. 2.1. 安装时直接报发生严重错误 1. 2.2. 安装好后,打开Vitualbox报创建COM对象失败,错误情况1 1. 2.3. 安装好后,打开Vitualbox报创建COM对象失败,错误情况2 1. 2.4. 安装将要成功,进度条回滚,报“setup wizard ended prematurely”错误 2. 新建虚拟机 2. 1. 创建虚拟机出错情况 2. 1.1. 配制好虚拟光盘后不能点击OK按钮 3. 安装Ubuntu系统 3. 1. 安装Ubuntu出错情况 3. 1.1. 提示VT-x/AMD-V硬件加速在系统中不可用 4. 安装增强功能 4. 1. 安装增强功能出错情况 4. 1.1. 报未能加载虚拟光盘错误 5. 复制文件到虚拟机 5. 1. 复制出错情况 5. 1.1. 不能把文件从本地拖到虚拟机 6. 配置无秘登录ssh 7. Java环境安装 7. 1. 安装Java出错情况 7. 1.1. 提示不能连接 8. hadoop安装 8. 1. 安装hadoop的时候出错情况 8. 1.1. DataNode进程没启动 9. 开机自启动hadoop 10. 关闭服务器(需要时才关) 1. virtualbox安装 1. 1. 安装步骤 1.选择hadoop安装软件中的VirtualBox-6.0.8-130520-Win

2.双击后进入安装界面,然后直接点击下一步 3.如果不想把VirtualBox安装在C盘,那么点击浏览

win7+eclipse+hadoop开发环境搭建

Win7+eclipse+Ubuntu14虚拟机环境下搭建hadoop1.2.1单机模式的开发环境 1.虚拟机下安装ubuntu14操作系统。 **注:(我安装ubuntu的时候的用户名是zjp一下涉及到的所有的zjp都需要换成自己的用名) 2.Ctrl+Alt+t 快捷键可以打开终端。 3.激活root用户sudo passwd root 4.联网的情况下,可以用apt-get install samba命令下载以及安装samba服务器。这个主要是为了window向ubuntu中上传jdk以及hadoop的安装文件。(如果apt-get命令无法使用,先用apt-get update安装这个命令。如果主机联网了,但是ubuntn没有连上网,那么将虚拟机的网络适配器改为NA T模式,并且启动任务管理器。打开服务,查看VMware NAT service 和WMware DPCH service是否启动,如果没有启动那么就启动这两个服务。如果还不能联网那就在虚拟机的菜单栏中选择编辑->虚拟网络编辑器,恢复默认设置。重启一下电脑,如果还是不行,那就没办法了,自求多福!) 5.联网的情况下安装ssh协议apt-get install ssh 6.在/home/zjp 目录下创建两个文件夹1.share用于存放共享文件 2.mysoftware用于存放需要安装的软件 7.配置samba共享su root 切换至root用户gedit /etc/samba/smb.conf 编辑samba 的配置文件在文件的最后添加 [share] comment=sharedir path=/home/zjp/share read only=no browseable=yes guest ok=no 7.关闭防火墙ufw disable 8重启samba服务器service samba restart 9创建samba用户smbpasswd -a samba用户名eg:smbpasswd -a zkpk 10ifconfig查看ubuntu的ip地址。例如ip是192.168.30.128 11打开我的电脑,在地址栏中输入\\192.168.30.128不出意外的话会让你登录,就用创建的samba登录就可以了。然后把下载好的linux版本的jdk和hadoop的安装文件拷贝进去。12.再把传到share目录下面的两个文件拷贝到mysoftware中去。 这些准备工作都做好了,就可以安装jdk以及hadoop了 一.先安装jdk 1.在mysoftware目录下用tar -zxvf jdk-7u55-linux-x64.gz命令解压以及安装jdk。 2.配置环境变量 gedit /etc/profile 然后在文件的最末尾添加如下内容: JA V A_HOME=/home/xkl/mysof/jdk1.7.0_60 export PA TH=$PATH:$JA V A_HOME/bin OK注销一下Ubuntu然后在终端中输入java -version如果可以看见jdk的版本,说明jdk 安装成功。 二.安装hadoop

Hadoop试题题库

1.以下哪一项不属于 A. 单机(本地)模式 B. 伪分布式模式 C. 互联模式 D. 分布式模式 Hadoop 可以运行的模式 2. Hado op 的作者是下面哪一位 A. Marti n Fowler B. Doug cutt ing C. Kent Beck D. Grace Hopper A. TaskTracker B. DataNode C. Secon daryNameNode D. Jobtracker 4. HDFS 默认Block Size 的大小是 A. 32MB B. 64MB C. 128MB D. 256M 5.下列哪项通常是集群的最主要瓶颈 A. CPU 8. HDFS 是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、 高可扩展性、高吞吐率等特征,适合的读写任务是 _D ______ o 3.下列哪个程序通常与 NameNode 在同一个节点启动 B. C. D. 网络 磁盘IO 内存 6. F 列关于 A. Map Reduce B. Map Reduce C. Map Reduce D. Map Reduce Map Reduce 说法不正确的是 _ 是一种计算框架 来源于google 的学术论文 程序只能用 java 语言编写 隐藏了并行计算的细节,方便使用

A.—次写入, B.多次写入, C.多次写入, D.—次写入,少次读少次读

7. HBase依靠 A ________ 存储底层数据。 A. HDFS B.Hadoop C.Memory D. Map Reduce 8. HBase依赖 D 提供强大的计算能力。 A. Zookeeper B.Chubby C.RPC D. Map Reduce 9. HBase依赖 A 提供消息通信机制 A.Zookeeper B.Chubby C. RPC D. Socket 10.下面与 HDFS类似的框架是 A. NTFS B. FAT32 C. GFS D. EXT3 11.关于 SecondaryNameNode 下面哪项是正确的 A.它是NameNode的热备 B.它对内存没有要求 C.它的目的是帮助 NameNode合并编辑日志,减少NameNode启动时间 D.SecondaryNameNode 应与 NameNode 部署到一个节点 12.大数据的特点不包括下面哪一项巨大 的数据量多结构化数据 A. B. C. D. 增长速度快价值密度高

Hadoop云计算平台搭建最详细过程(共22页)

Hadoop云计算平台及相关组件搭建安装过程详细教程 ——Hbase+Pig+Hive+Zookeeper+Ganglia+Chukwa+Eclipse等 一.安装环境简介 根据官网,Hadoop已在linux主机组成的集群系统上得到验证,而windows平台是作为开发平台支持的,由于分布式操作尚未在windows平台上充分测试,所以还不作为一个生产平台。Windows下还需要安装Cygwin,Cygwin是在windows平台上运行的UNIX模拟环境,提供上述软件之外的shell支持。 实际条件下在windows系统下进行Hadoop伪分布式安装时,出现了许多未知问题。在linux系统下安装,以伪分布式进行测试,然后再进行完全分布式的实验环境部署。Hadoop完全分布模式的网络拓补图如图六所示: (1)网络拓补图如六所示: 图六完全分布式网络拓补图 (2)硬件要求:搭建完全分布式环境需要若干计算机集群,Master和Slaves 处理器、内存、硬盘等参数要求根据情况而定。 (3)软件要求 操作系统64位版本:

并且所有机器均需配置SSH免密码登录。 二. Hadoop集群安装部署 目前,这里只搭建了一个由三台机器组成的小集群,在一个hadoop集群中有以下角色:Master和Slave、JobTracker和TaskTracker、NameNode和DataNode。下面为这三台机器分配IP地址以及相应的角色: ——master,namenode,jobtracker——master(主机名) ——slave,datanode,tasktracker——slave1(主机名) ——slave,datanode,tasktracker——slave2(主机名) 实验环境搭建平台如图七所示:

在windows下安装hadoop

在windows下通过安装cygwin模拟linux环境,然后再安装hadoop,是一种简单方便的方式。 首先是搭建cygwin环境: 一、安装cygwin 二、安装sshd服务 三、启动sshd服务 四、配置ssh无密码登录 一、此处无话可说,按照网上的文档,选择必要的组件即可。 二、 1 以管理员身份运行cygwin 2 输入:ssh-host-config 有关键的两步:*** Query: Do you want to use a different name? (yes/no)选择yes *** Query: Create new privileged user account 'cyg_server'? (yes/no) 选择yes 创建的用户名最好为新的用户名,密码最好与windows用户的密码一致 三、在开始菜单运ervices.msc或其他手段进入服务列表,找到cygwin sshd服务,查看属性是否为上一步的用户名登陆的,否则更改之。此时可能不能启动,需要在计算机右击“管理”,用户和组的管理中将上面的用户加入管理员的组,即授予管理员权限。 四、此时使用ssh服务,即输入:ssh localhost会要求输入密码,若显示为“last login:......”则说明已经正确安装ssh服务并且可以启动。 接下来是配置ssh的无密码登陆: 1输入:ssh-keygen (一直回车,一般是三次回车) 2 输入:cd ~/.ssh 3 输入:cp id_rsa.pub authorized_keys 此时输入exit退出cygwin,再次以管理员身份进入cygwin,输入ssh localhost,若没有要求输入密码便显示“last login.....”则说明成功了。 接下来是安装Hadoop: 一、安装JDK 二、下载hadoop及配置hadoop环境 三、格式化namenode 四、启动hadoop

Hadoop环境的搭建与管理 (1)

Hadoop环境的搭建与管理 1、Hadoop的安装与配置 HDFS在Master节点启动dfs和yarn服务时,需要自动启动Slave节点服务,HDFS需要通过ssh访问Slave节点机。HDFS需要搭建多台服务器组成分布式系统,节点机间需要无密码访问。本节任务是进行ssh的设置、用户的创建、hadoop参数的设置,完成HDFS分布式环境的搭建。 任务实施: 本节任务需要四台节点机组成集群,每个节点机上安装CentOS-6.5-x86_64系统。四台节点机使用的IP地址分别为:192.168.23.111、192.168.23.112、192.168.23.113、192.168.23.114,对应节点主机名为:node1、node2、node3、node4。节点机node1作为NameNode,其他作为DataNode。 创建hadoop用户,分别在四台节点机上创建用户hadoop,uid=660,密码分别为h1111, h2222, h3333, h4444。登录node1节点机,创建hadoop用户和设置密码。操作命令如下。 [root@node1 ~]# useradd -u 660 hadoop [root@node1 ~]# passwd hadoop 其他节点机的操作相同。 步骤2 设置master节点机ssh无密码登录slave节点机。 (1)在node1节点机上,以用户hadoop用户登录或者使用su – hadoop切换到hadoop 用户。操作命令如下。 [root@node1 ~]# su - hadoop (2)使用ssh-keygen生成证书密钥,操作命令如下。 [hadoop@node1 ~]$ssh-keygen -t dsa (3)使用ssh-copy-id分别拷贝证书公钥到node1,node2,node3,node4节点机上,操作命令如下。 [hadoop@node1 ~]$ ssh-copy-id -i .ssh/id_dsa.pub node1 [hadoop@node1 ~]$ ssh-copy-id -i .ssh/id_dsa.pub node2 [hadoop@node1 ~]$ ssh-copy-id -i .ssh/id_dsa.pub node3 [hadoop@node1 ~]$ ssh-copy-id -i .ssh/id_dsa.pub node4 (4)在node1节点机上使用ssh测试无密码登录node1节点机,操作命令如下。 [hadoop@node1 ~]$ ssh node1 Last Login: Mon Dec 22 08:42:38 2014 from node1 [hadoop@node1 ~]$ exit Logout Connection to node1 closed.

Hadoop试题试题库

1. 以下哪一项不属于Hadoop可以运行的模式___C___。 A. 单机(本地)模式 B. 伪分布式模式 C. 互联模式 D. 分布式模式 2. Hadoop 的作者是下面哪一位__B____。 A. Martin Fowler B. Doug cutting C. Kent Beck D. Grace Hopper 3. 下列哪个程序通常与NameNode 在同一个节点启动__D___。 A. TaskTracker B. DataNode C. SecondaryNameNode D. Jobtracker 4. HDFS 默认Block Size 的大小是___B___。 A.32MB B.64MB C.128MB D.256M 5. 下列哪项通常是集群的最主要瓶颈____C__。 A. CPU B. 网络 C. 磁盘IO D. 内存 6. 下列关于MapReduce说法不正确的是_____C_。 A. MapReduce 是一种计算框架 B. MapReduce 来源于google 的学术论文 C. MapReduce 程序只能用java 语言编写 D. MapReduce 隐藏了并行计算的细节,方便使用 8. HDFS 是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是__D____。 A.一次写入,少次读 B.多次写入,少次读 C.多次写入,多次读 D.一次写入,多次读

7. HBase 依靠__A____存储底层数据。 A. HDFS B. Hadoop C. Memory D. MapReduce 8. HBase 依赖___D___提供强大的计算能力。 A. Zookeeper B. Chubby C. RPC D. MapReduce 9. HBase 依赖___A___提供消息通信机制 A. Zookeeper B. Chubby C. RPC D. Socket 10. 下面与HDFS类似的框架是___C____? A. NTFS B. FAT32 C. GFS D. EXT3 11. 关于SecondaryNameNode 下面哪项是正确的___C___。 A. 它是NameNode 的热备 B. 它对内存没有要求 C. 它的目的是帮助NameNode 合并编辑日志,减少NameNode 启动时间 D. SecondaryNameNode 应与NameNode 部署到一个节点 12. 大数据的特点不包括下面哪一项___D___。 A. 巨大的数据量 B. 多结构化数据 C. 增长速度快 D. 价值密度高 HBase测试题 9. HBase 来源于哪一项? C

Hadoop入门—Linux下伪分布式计算的安装与wordcount的实例展示

开始研究一下开源项目hadoop,因为根据本人和业界的一些分析,海量数据的分布式并行处理是趋势,咱不能太落后,虽然开始有点晚,呵呵。首先就是安装和一个入门的小实例的讲解,这个恐怕是我们搞软件开发的,最常见也最有效率地入门一个新鲜玩意的方式了,废话不多说开始吧。 本人是在ubuntu下进行实验的,java和ssh安装就不在这里讲了,这两个是必须要安装的,好了我们进入主题安装hadoop: 1.下载hadoop-0.20.1.tar.gz: https://www.sodocs.net/doc/f21223512.html,/dyn/closer.cgi/hadoop/common/ 解压:$ tar –zvxf hadoop-0.20.1.tar.gz 把Hadoop 的安装路径添加到环/etc/profile 中: export HADOOP_HOME=/home/hexianghui/hadoop-0.20.1 export PATH=$HADOOP_HOME/bin:$PATH 2.配置hadoop hadoop 的主要配置都在hadoop-0.20.1/conf 下。 (1)在conf/hadoop-env.sh 中配置Java 环境(namenode 与datanode 的配置相同): $ gedit hadoop-env.sh $ export JAVA_HOME=/home/hexianghui/jdk1.6.0_14 3.3)配置conf/core-site.xml, conf/hdfs-site.xml 及conf/mapred-site.xml(简单配置,datanode 的配置相同) core-site.xml: hadoop.tmp.dir /home/yangchao/tmp A base for other temporary directories. https://www.sodocs.net/doc/f21223512.html, hdfs://localhost:9000 hdfs-site.xml:( replication 默认为3,如果不修改,datanode 少于三台就会报错)

实验3 Hadoop安装与配置2-伪分布式

实验报告封面 课程名称: Hadoop大数据处理课程代码: JY1124 任课老师:宁穗实验指导老师: 宁穗 实验报告名称:实验3 Hadoop安装与配置2 学生: 学号: 教学班: 递交日期: 签收人: 我申明,本报告的实验已按要求完成,报告完全是由我个人完成,并没有抄袭行为。我已经保留了这份实验报告的副本。 申明人(签名): 实验报告评语与评分: 评阅老师签名:

一、实验名称:Hadoop安装与配置 二、实验日期:2015年9 月25 日 三、实验目的: Hadoop安装与配置。 四、实验用的仪器和材料: 安装环境:以下两个组合之一 1.硬件环境:存ddr3 4G及以上的x86架构主机一部 系统环境:windows 、linux或者mac os x 软件环境:运行vmware或者virtualbox (2) 存ddr 1g及以上的主机两部及以上 五、实验的步骤和方法: 本次实验重点在ubuntu中安装jdk以及hadoop。 一、关闭防火墙 sudo ufw disable iptables -F 二、jdk的安装 1、普通用户下添加grid用户

2、准备jdk压缩包,把jdk压缩包放到以上目录(此目录可自行设置) 3、将jdk压缩包解压改名 改名为jdk:mv jdk1.7.0_45 jdk 移动到/usr目录下:mv jdk /usr(此目录也可自行设置,但需与配置文件一致)4、设置jdk环境变量 此采用全局设置方法,更改/etc/profile文件 sudo gedit /etc/profile 添加(根据情况自行设置) export JA VA_HOME=/usr/jdk export JRE_HOME=/usr/ jdk/jre export CLASSPATH=.:$JA V A_HOME/lib:$JRE_HOME/lib:$CLASSPATH export PA TH=$JA V A_HOME/bin: $JRE_HOME/ bin: $PATH 然后保存。 5、检验是否安装成功 java -version 二、ssh免密码 1、退出root用户,su grid 生成密钥 ssh-keygen –t rsa

hadoop环境配置入门教程

ubuntu 下安装配置hadoop 1.0.4 第一次搞hadoop,折腾我2天,功夫不负有心人,终于搞好了,现在来分享下, 我的环境 操作系统:wmv虚拟机中的ubuntu12.04 hadoop版本:hadoop-1.0.4(听说是稳定版就下了) eclipse版本:eclipse-jee-indigo-SR2-win32 1.先安装好jdk,然后配置好jdk的环境变量,在这里我就不累赘了!网上多的是 2.安装ssh这个也不用说了 2.把hadoop-1.0.4.tar.gz拖到虚拟机中,解压,比如: /home/wys/Documents/hadoop-1.0.4/ (有的还单独建了个用户,为了舍去不必要的麻烦我都是用root用户来操作的) 3.修改hadoop-1.0.4/conf 下面的core-site.xml文件,如下: https://www.sodocs.net/doc/f21223512.html, hdfs://192.168.116.128:9000 hadoop.tmp.dir /home/wys/Documents/tmp

192.168.116.128这个是虚拟机中ubuntu的ip,听说用localhost,127.0.0.1都不行,我没试过,直接写上ip地址了 tmp是预先创建的一个目录 4.修改hadoop-env.sh 把export JAVA_HOME=xxxxxx 这行的#号去掉,写上jdk的目录路径 5.修改hdfs-site.xml如下: dfs.replication 1 dfs.permissions false 说明:为了以后用eclipse开发出现各种问题,就把权限关了!

Hadoop安装配置超详细步骤

Hadoop的安装 1、实现linux的ssh无密码验证配置. 2、修改linux的机器名,并配置/etc/hosts 3、在linux下安装jdk,并配好环境变量 4、在windows下载hadoop 1.0.1,并修改hadoop-env.sh,core-site.xml, hdfs-site.xml, mapred-site.xml,masters,slaves文件的配置 5、创建一个给hadoop备份的文件。 6、把hadoop的bin加入到环境变量 7、修改部分运行文件的权限 8、格式化hadoop,启动hadoop 注意:这个顺序并不是一个写死的顺序,就得按照这个来。如果你知道原理,可以打乱顺序来操作,比如1、2、3,先哪个后哪个,都没问题,但是有些步骤还是得依靠一些操作完成了才能进行,新手建议按照顺序来。

一、实现linux的ssh无密码验证配置 (1)配置理由和原理 Hadoop需要使用SSH协议,namenode将使用SSH协议启动namenode和datanode进程,(datanode向namenode传递心跳信息可能也是使用SSH协议,这是我认为的,还没有做深入了解)。大概意思是,namenode 和datanode之间发命令是靠ssh来发的,发命令肯定是在运行的时候发,发的时候肯定不希望发一次就弹出个框说:有一台机器连接我,让他连吗。所以就要求后台namenode和datanode 无障碍的进行通信。 以namenode到datanode为例子:namenode作为客户端,要实现无密码公钥认证,连接到服务端datanode上时,需要在namenode上生成一个密钥对,包括一个公钥和一个私钥,而后将公钥复制到datanode上。当namenode通过ssh连接datanode时,datanode就会生成一个随机数并用namenode的公钥对随机数进行加密,并发送给namenode。namenode收到加密数之后再用私钥进行解密,并将解密数回传给datanode,datanode确认解密数无误之后就允许namenode 进行连接了。这就是一个公钥认证过程,其间不需要用户手工输入密码。重要过程是将客户端namenode公钥复制到datanode上。

hadoop安装最终版

一.在Microsoft Windows XP操作系统下,安装Ubuntu 8.04 lts server版本+ xubuntu桌面到VMware虚拟机上 1.下载ubuntu server 及xubuntu 1)Ubuntu 8.04 server: http://119.147.41.16/down?cid=A97349CDC5DF51672F26FCABACBF5BC5AF9AF89D &t=2&fmt=&usrinput=ubuntu 8.04&dt=1&ps=0_0&rt=0kbs&plt=0 2)Xubuntu: 可不下,不用桌面 http://119.147.41.16/down?cid=DADD7F929F5F442A7881C2B382865468B70B8AA5 &t=2&fmt=&usrinput=xubuntu&dt=1002002&ps=0_0&rt=0kbs&plt=0 3)VMware http://119.147.41.16/down?cid=9BAA5720718DE23B4F7312C915E8028E71779B39 &t=2&fmt=-1&usrinput=Vmware&dt=2056000&redirect=no 2.本人硬件环境(参考) CPU: 2 core 4.12G Memory: 2G ddr3 Mainboard Chip : Intel p43d3 Graphic Chip : N Geoforce 9600gs0 3.本人软件环境(参考) OS : Microsoft windows xp sp3 VM: vmware5.5.1.19175 Linux: Ubuntu linux 8.04 lts server(iso) + xubuntu (ISO) 4.设置虚拟环境 1)安装VMware :略(出现警告仍然继续,sn: E8HFE-5MD6N-F25DC-4WRNQ, 可不汉 化) 2)打开VMware Workstation软件,点击“file”菜单,选择“new”-“virtual machine” 命令 3)弹出新建虚拟机向导,点击“下一步”按钮 4)在“virtual machine configuration”中,选择第二项“custom”单选项目,点击 “下一步”按钮 5)在“virtual machine format”中,选择第一项“new - Workstation 5”单选项目, 点击“下一步”按钮 6)之后将询问虚拟机的操作系统,我们在“guest operating system”中选择“Linux”, 在下面的版本中选择“Ubuntu”,点击“下一步”按钮 7)这时询问虚拟机的名称和保存目录,请根据自己的需要进行设置。在此我使用 d:\\My Virtual Machines\Ubuntu,点击“下一步”按钮 8)虚拟处理器数,选择“one”,点击“下一步”按钮。(我是双核心处理器,所以 有这个项目) 9)这时提示分配虚拟机内存,请根据自己物理内存实际情况进行设置,建议至少 分配128MB内存,如果物理内存数量允许,推荐设置256MB内存。我的物理 内存是2GB,在此我使用虚拟机推荐的内存数量384MB,点击“下一步”按钮 10)网络连接类型。如果不想让虚拟机访问,请选择“不使用网络连接”。如果需要 访问网络,请根据自己的情况设置,在此我推荐使用第二项“NAT”,这个选项 让虚拟机使用宿主计算机的IP访问网络,宿主计算机将共享网络给虚拟机。点 击“下一步”按钮

Hadoop实验环境搭建

单机上通过虚拟机搭建Hadoop环境 (以下过程软件版本不固定,只能相互兼容就可以) 1.安装vmware workstation(1 2.1.0) 2.创建3个虚拟机(每个虚拟机512M内存,8G空间),每个虚拟机安装Ubuntu 桌面版 (11.10)(虚拟机需安装vmare tools,上网上式可设置为桥接方式:直接连接物理网络)。 一个虚拟机作为name node(master),两个虚拟机作为data node 1(slave1)和data node 2(slave2).三个虚拟机可以共享一个主机目录share,该目录在虚拟机上显示为/mnt/hgfs/share 对每个虚拟机: 修改root密码(sudo passwd root),然后用root用户登录。 3.通过如下配置master, slave1, slave2。 1)通过vi /etc/hostname修改主机名。 2)通过vi /etc/hosts修改/etc/hosts 文件,增加三台机器的ip和hostname的映射关系. 在/usr/src目录: 4.下载zlib(1.2.8)并解压安装 5.下载openssl(1.0.1)并解压安装 6.下载openssh(6.0p1)并解压安装 安装后运行命令ssh localhost,如果显示” Privilege separation user sshd does not exist”,解决方法: 修改/etc/passwd,在其中加入 sshd:x:74:74:Privilege-seperated SSH:/var/empty/sshd:/nologin 7.配置ssh无密码登录 在命令行输入:vi /etc/profile.d/hadoop.sh 在hadoop.sh加入以下命令: sudo ufw disable /usr/local/sbin/sshd 在name node: ssh-keygen –t dsa -P ‘’–f ~/.ssh/id_dsa 在data node 1: ssh-keygen –t dsa-P‘’–f ~/.ssh/id_dsa 在data node 2: ssh-keygen –t dsa -P‘’–f ~/.ssh/id_dsa 在name node: scp ~/.ssh/id_dsa.pub /mnt/hgfs/share/id_dsa0.pub 在data node 1: scp ~/.ssh/id_dsa.pub /mnt/hgfs/share/id_dsa1.pub 在data node 2: scp ~/.ssh/id_dsa.pub /mnt/hgfs/share/id_dsa2.pub

Hadoop2.2.0+Hbase0.98.1+Sqoop1.4.4+Hive0.13完全安装手册

Hadoop2.2.0+Hbase0.98.1+Sqoop1.4.4+Hive0.13 完全安装手册

前言: (3) 一. Hadoop安装(伪分布式) (4) 1. 操作系统 (4) 2. 安装JDK (4) 1> 下载并解压JDK (4) 2> 配置环境变量 (4) 3> 检测JDK环境 (5) 3. 安装SSH (5) 1> 检验ssh是否已经安装 (5) 2> 安装ssh (5) 3> 配置ssh免密码登录 (5) 4. 安装Hadoop (6) 1> 下载并解压 (6) 2> 配置环境变量 (6) 3> 配置Hadoop (6) 4> 启动并验证 (8)

前言: 网络上充斥着大量Hadoop1的教程,版本老旧,Hadoop2的中文资料相对较少,本教程的宗旨在于从Hadoop2出发,结合作者在实际工作中的经验,提供一套最新版本的Hadoop2相关教程。 为什么是Hadoop2.2.0,而不是Hadoop2.4.0 本文写作时,Hadoop的最新版本已经是2.4.0,但是最新版本的Hbase0.98.1仅支持到Hadoop2.2.0,且Hadoop2.2.0已经相对稳定,所以我们依然采用2.2.0版本。

一. Hadoop安装(伪分布式) 1. 操作系统 Hadoop一定要运行在Linux系统环境下,网上有windows下模拟linux环境部署的教程,放弃这个吧,莫名其妙的问题多如牛毛。 2. 安装JDK 1> 下载并解压JDK 我的目录为:/home/apple/jdk1.8 2> 配置环境变量 打开/etc/profile,添加以下内容: export JAVA_HOME=/home/apple/jdk1.8 export PATH=$PATH:$JAVA_HOME/bin export CLASSPATH=.:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar 执行source /etc/profile ,使更改后的profile生效。 执行以下命令,赋予JDK运行的权限: chmod 777 /home/apple/jdk1.8/bin/* chmod 777 /home/apple/jdk1.8/lib/*

虚拟机环境下Hadoop伪分布式平台搭建详细过程

大数据技术平台搭建之Hadoop 1. Hadoop(伪分布式)平台搭建详细过程 1.1 工具 ?VMware12 ?CentOS 6.4 ?JDK-6u24-Linux-i586.bin ?Hadoop-1.1.2.tar.gz ?Scala-2.9.3.tgz ?Spark-1.4.0-bin-hadoop1.tgz ?Win10系统环境 1.2 详细搭建过程 1.2.1 安装虚拟机VMware Workstation 12 Pro 图1.1 VMware Workstation 12 Pro软件开始界面1.2.2 在虚拟机环境上安装Linux系统 (1)点击创建新的虚拟机按钮选择典型配置安装 图1.2 新建虚拟机向导

(2)选择Linux镜像文件,开始虚拟安装 图1.3 选择安装镜像文件(3)为新建的虚拟机命名,并选择安装目录 图1.4 命名、选择安装目录(4)指定虚拟机磁盘大小 图1.5 指定磁盘大小

(5)设置硬件、网络类型等虚拟机配置 图1.6 自定义虚拟机硬件 (6)点击完成按钮完成虚拟机安装 图1.7 CentOS_Linux虚拟机系统安装成功

1.2.3 配置Linux环境,为安装Hadoop做准备 (1)关闭防火墙 执行命令 service iptables status可以查看防火墙状态 执行命令 service iptables stop 关闭防火墙 图1.8 关闭防火墙并检验 执行命令chkconfig iptables off,关闭防火墙某些功能自启动 图1.9 关闭防火墙自启功能并检验 (2)设置网络连接 宿主机(Windows)和客户机(虚拟机中的Linux)采用host-only方式建立网络连接,具体步骤:右击桌面右上角网络连接图标,选择编辑网络连接,如下 图1.10 虚拟机网络设置窗口 接着点击按钮,设置IPv4地址,注意要和主机IP在同一网段 192.168.80.X 图1.11 设置ip窗口

相关主题