搜档网
当前位置:搜档网 › Hadoop2.5.2,伪分布式安装

Hadoop2.5.2,伪分布式安装

Hadoop2.5.2,伪分布式安装
Hadoop2.5.2,伪分布式安装

一、Hadoop概述

1.1什么是Hadoop

一个开源、高可靠、可扩展的分布式计算框架

解决的问题:

海量数据的存储(HDFS)

海量数据的分析(MapReduce)

分布式资源调度(Yarn)

产生背景:

受Google三篇论文的启发(GFS、MapReduce、BigTable)

扩容能力:

能可靠地存储和处理千兆字节(PB)数据。

成本低:

可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。高效率:

通过分发数据,Hadoop可以在数据所在的节点上并行地处理它们,这使得处理非常的快速。可靠性:

Hadoop能自动维护数据的多份副本,并且在任务失败后能自动重新部署。

1.2 Hadoop应用场景

日志分析

基于海量数据的在线应用

推荐系统

计算广告

复杂算法

网盘

搜索引擎

………….

1.3Hadoop生态圈

1.4 Hadoop核心

Hadoop项目主要包括以下四个模块

Hadoop Common:

为其他Hadoop模块提供基础设施

Hadoop HDFS:

一个高可靠、高吞吐量的分布式文件系统Hadoop MapReduce:

一个分布式的离线并行计算框架

Hadoop YARN:

一个新的MapReduce框架,任务调度与资源管理

分布式离线计算框架 ---- MapReduce

Map任务处理

① 读取输入文件内容,解析成key、value对

② 重写map方法,编写业务逻辑输出新的key、value对

③ 对输出的key、value进行分区。(Partitioner类)

④对数据按照key进行排序、分组。相同key的value放到一个集合中。

Reduce任务处理

①对多个map任务的输出,按照不同的分区,通过网络copy到不同的reduce节点。

②对多个map任务的输出进行合并、排序。写reduce函数自己的逻辑,对输入的key、value处理,转换成新的key、value输出。

③把reduce的输出保存到文件中。

二、Hadoop前置环境安装

Linux环境准备

JDK安装

材料:

VMware

https://www.sodocs.net/doc/4b2691772.html,/sw-search-sp/software/d34ff7ffac8/VMware-workstation_full_12.1.1.69 32.exe

linux

https://www.sodocs.net/doc/4b2691772.html,/centos/6.8/isos/x86_64/CentOS-6.8-x86_64-bin-DVD1.iso

CentOS-6.8-x86_64-bin-DVD1.iso

Jdk1.7

jdk-7u67-linux-x64.tar.gz

2.1虚拟机搭建

安装完成,重新启动

2.2设置虚拟机网络环境

链接网络,根据你本机网络环境,设置虚拟机服务器中网络环境查看你本地网络环境

检查你win环境能否ping通虚拟机i

使用SecureCRT.exe即可远程连接上服务器

2.3关闭防火墙

永久关闭:chkconfig iptables off

暂时关闭,重启后失效:service iptables stop [root@hadoop02 ~]# chkconfig iptables off

2.4修改主机名

[root@hadoop02 ~]# vim /etc/sysconfig/network

2.5配置网络映射

2.6重启机器

[root@hadoop02 ~]# reboot

d2.7设置ssh免密码登录

[root@hadoop02 ~]# ssh 192.168.186.216

需要密码

首先生成秘钥:

[root@hadoop02 ~]# ssh-keygen -t rsa

之后四个回车

生成完成,复制秘钥到本机

[root@hadoop02 ~]# ssh-copy-id 192.168.186.216

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu_CentOS

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu/CentOS 本教程讲述如何配置Hadoop 集群,默认读者已经掌握了Hadoop 的单机伪分布式配置,否则请先查看Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置。 本教程由厦门大学数据库实验室出品,转载请注明。本教程适合于原生Hadoop 2,包括Hadoop 2.6.0, Hadoop 2.7.1 等版本,主要参考了官方安装教程,步骤详细,辅以适当说明,保证按照步骤来,都能顺利安装并运行Hadoop。另外有Hadoop安装配置简略版方便有基础的读者快速完成安装。 为了方便新手入门,我们准备了两篇不同系统的Hadoop 伪分布式配置教程。但其他Hadoop 教程我们将不再区分,可同时适用于Ubuntu 和CentOS/RedHat 系统。例如本教程以Ubuntu 系统为主要演示环境,但对Ubuntu/CentOS 的不同配置之处、CentOS 6.x 与CentOS 7 的操作区别等都会尽量给出注明。 环境 本教程使用Ubuntu 14.04 64位作为系统环境,基于原生Hadoop 2,在Hadoop 2.6.0 (stable)版本下验证通过,可适合任何Hadoop 2.x.y 版本,例如Hadoop 2.7.1,Hadoop 2.4.1 等。 本教程简单的使用两个节点作为集群环境: 一个作为Master 节点,局域网IP 为192.168.1.121;另一个作为Slave 节点,局域网IP 为192.168.1.122。 准备工作 Hadoop 集群的安装配置大致为如下流程: 1.选定一台机器作为Master 2.在Master 节点上配置hadoop 用户、安装SSH server、安装Java 环境 3.在Master 节点上安装Hadoop,并完成配置 4.在其他Slave 节点上配置hadoop 用户、安装SSH server、安装Java 环境 5.将Master 节点上的/usr/local/hadoop 目录复制到其他Slave 节点上 6.在Master 节点上开启Hadoop 配置hadoop 用户、安装SSH server、安装Java 环境、安装Hadoop 等过程已经在Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置中有详细介绍,请前往查看,不再重复叙述。 继续下一步配置前,请先完成上述流程的前 4 个步骤。 网络配置 假设集群所用的节点都位于同一个局域网。 如果使用的是虚拟机安装的系统,那么需要更改网络连接方式为桥接(Bridge)模式,才能实现多个节点互连,例如在VirturalBox 中的设置如下图。此外,如果节点的系统是在虚拟机中直接复制的,要确保各个节点的Mac 地址不同(可以点右边的按钮随机生成MAC 地址,否则IP 会冲突):

hadoop2.7.2 伪分布式安装

hadoop:建立一个单节点集群伪分布式操作 安装路径为:/opt/hadoop-2.7.2.tar.gz 解压hadoop: tar -zxvf hadoop-2.7.2.tar.gz 配置文件 1. etc/hadoop/hadoop-env.sh export JAVA_HOME=/opt/jdk1.8 2. etc/hadoop/core-site.xml fs.defaultFS hdfs://localhost:9000 hadoop.tmp.dir file:/opt/hadoop-2.7.2/tmp 3. etc/hadoop/hdfs-site.xml https://www.sodocs.net/doc/4b2691772.html,.dir file:/opt/hadoop-2.7.2/dfs/name dfs.datanode.data.dir file:/opt/hadoop-2.7.2/dfs/data dfs.replication 1 dfs.webhdfs.enabled true

hadoop伪分布式搭建2.0

1. virtualbox安装 1. 1. 安装步骤 1. 2. virtualbox安装出错情况 1. 2.1. 安装时直接报发生严重错误 1. 2.2. 安装好后,打开Vitualbox报创建COM对象失败,错误情况1 1. 2.3. 安装好后,打开Vitualbox报创建COM对象失败,错误情况2 1. 2.4. 安装将要成功,进度条回滚,报“setup wizard ended prematurely”错误 2. 新建虚拟机 2. 1. 创建虚拟机出错情况 2. 1.1. 配制好虚拟光盘后不能点击OK按钮 3. 安装Ubuntu系统 3. 1. 安装Ubuntu出错情况 3. 1.1. 提示VT-x/AMD-V硬件加速在系统中不可用 4. 安装增强功能 4. 1. 安装增强功能出错情况 4. 1.1. 报未能加载虚拟光盘错误 5. 复制文件到虚拟机 5. 1. 复制出错情况 5. 1.1. 不能把文件从本地拖到虚拟机 6. 配置无秘登录ssh 7. Java环境安装 7. 1. 安装Java出错情况 7. 1.1. 提示不能连接 8. hadoop安装 8. 1. 安装hadoop的时候出错情况 8. 1.1. DataNode进程没启动 9. 开机自启动hadoop 10. 关闭服务器(需要时才关) 1. virtualbox安装 1. 1. 安装步骤 1.选择hadoop安装软件中的VirtualBox-6.0.8-130520-Win

2.双击后进入安装界面,然后直接点击下一步 3.如果不想把VirtualBox安装在C盘,那么点击浏览

Hadoop试题题库

1.以下哪一项不属于 A. 单机(本地)模式 B. 伪分布式模式 C. 互联模式 D. 分布式模式 Hadoop 可以运行的模式 2. Hado op 的作者是下面哪一位 A. Marti n Fowler B. Doug cutt ing C. Kent Beck D. Grace Hopper A. TaskTracker B. DataNode C. Secon daryNameNode D. Jobtracker 4. HDFS 默认Block Size 的大小是 A. 32MB B. 64MB C. 128MB D. 256M 5.下列哪项通常是集群的最主要瓶颈 A. CPU 8. HDFS 是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、 高可扩展性、高吞吐率等特征,适合的读写任务是 _D ______ o 3.下列哪个程序通常与 NameNode 在同一个节点启动 B. C. D. 网络 磁盘IO 内存 6. F 列关于 A. Map Reduce B. Map Reduce C. Map Reduce D. Map Reduce Map Reduce 说法不正确的是 _ 是一种计算框架 来源于google 的学术论文 程序只能用 java 语言编写 隐藏了并行计算的细节,方便使用

A.—次写入, B.多次写入, C.多次写入, D.—次写入,少次读少次读

7. HBase依靠 A ________ 存储底层数据。 A. HDFS B.Hadoop C.Memory D. Map Reduce 8. HBase依赖 D 提供强大的计算能力。 A. Zookeeper B.Chubby C.RPC D. Map Reduce 9. HBase依赖 A 提供消息通信机制 A.Zookeeper B.Chubby C. RPC D. Socket 10.下面与 HDFS类似的框架是 A. NTFS B. FAT32 C. GFS D. EXT3 11.关于 SecondaryNameNode 下面哪项是正确的 A.它是NameNode的热备 B.它对内存没有要求 C.它的目的是帮助 NameNode合并编辑日志,减少NameNode启动时间 D.SecondaryNameNode 应与 NameNode 部署到一个节点 12.大数据的特点不包括下面哪一项巨大 的数据量多结构化数据 A. B. C. D. 增长速度快价值密度高

Hadoop云计算平台搭建最详细过程(共22页)

Hadoop云计算平台及相关组件搭建安装过程详细教程 ——Hbase+Pig+Hive+Zookeeper+Ganglia+Chukwa+Eclipse等 一.安装环境简介 根据官网,Hadoop已在linux主机组成的集群系统上得到验证,而windows平台是作为开发平台支持的,由于分布式操作尚未在windows平台上充分测试,所以还不作为一个生产平台。Windows下还需要安装Cygwin,Cygwin是在windows平台上运行的UNIX模拟环境,提供上述软件之外的shell支持。 实际条件下在windows系统下进行Hadoop伪分布式安装时,出现了许多未知问题。在linux系统下安装,以伪分布式进行测试,然后再进行完全分布式的实验环境部署。Hadoop完全分布模式的网络拓补图如图六所示: (1)网络拓补图如六所示: 图六完全分布式网络拓补图 (2)硬件要求:搭建完全分布式环境需要若干计算机集群,Master和Slaves 处理器、内存、硬盘等参数要求根据情况而定。 (3)软件要求 操作系统64位版本:

并且所有机器均需配置SSH免密码登录。 二. Hadoop集群安装部署 目前,这里只搭建了一个由三台机器组成的小集群,在一个hadoop集群中有以下角色:Master和Slave、JobTracker和TaskTracker、NameNode和DataNode。下面为这三台机器分配IP地址以及相应的角色: ——master,namenode,jobtracker——master(主机名) ——slave,datanode,tasktracker——slave1(主机名) ——slave,datanode,tasktracker——slave2(主机名) 实验环境搭建平台如图七所示:

在windows下安装hadoop

在windows下通过安装cygwin模拟linux环境,然后再安装hadoop,是一种简单方便的方式。 首先是搭建cygwin环境: 一、安装cygwin 二、安装sshd服务 三、启动sshd服务 四、配置ssh无密码登录 一、此处无话可说,按照网上的文档,选择必要的组件即可。 二、 1 以管理员身份运行cygwin 2 输入:ssh-host-config 有关键的两步:*** Query: Do you want to use a different name? (yes/no)选择yes *** Query: Create new privileged user account 'cyg_server'? (yes/no) 选择yes 创建的用户名最好为新的用户名,密码最好与windows用户的密码一致 三、在开始菜单运ervices.msc或其他手段进入服务列表,找到cygwin sshd服务,查看属性是否为上一步的用户名登陆的,否则更改之。此时可能不能启动,需要在计算机右击“管理”,用户和组的管理中将上面的用户加入管理员的组,即授予管理员权限。 四、此时使用ssh服务,即输入:ssh localhost会要求输入密码,若显示为“last login:......”则说明已经正确安装ssh服务并且可以启动。 接下来是配置ssh的无密码登陆: 1输入:ssh-keygen (一直回车,一般是三次回车) 2 输入:cd ~/.ssh 3 输入:cp id_rsa.pub authorized_keys 此时输入exit退出cygwin,再次以管理员身份进入cygwin,输入ssh localhost,若没有要求输入密码便显示“last login.....”则说明成功了。 接下来是安装Hadoop: 一、安装JDK 二、下载hadoop及配置hadoop环境 三、格式化namenode 四、启动hadoop

Hadoop试题试题库

1. 以下哪一项不属于Hadoop可以运行的模式___C___。 A. 单机(本地)模式 B. 伪分布式模式 C. 互联模式 D. 分布式模式 2. Hadoop 的作者是下面哪一位__B____。 A. Martin Fowler B. Doug cutting C. Kent Beck D. Grace Hopper 3. 下列哪个程序通常与NameNode 在同一个节点启动__D___。 A. TaskTracker B. DataNode C. SecondaryNameNode D. Jobtracker 4. HDFS 默认Block Size 的大小是___B___。 A.32MB B.64MB C.128MB D.256M 5. 下列哪项通常是集群的最主要瓶颈____C__。 A. CPU B. 网络 C. 磁盘IO D. 内存 6. 下列关于MapReduce说法不正确的是_____C_。 A. MapReduce 是一种计算框架 B. MapReduce 来源于google 的学术论文 C. MapReduce 程序只能用java 语言编写 D. MapReduce 隐藏了并行计算的细节,方便使用 8. HDFS 是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是__D____。 A.一次写入,少次读 B.多次写入,少次读 C.多次写入,多次读 D.一次写入,多次读

7. HBase 依靠__A____存储底层数据。 A. HDFS B. Hadoop C. Memory D. MapReduce 8. HBase 依赖___D___提供强大的计算能力。 A. Zookeeper B. Chubby C. RPC D. MapReduce 9. HBase 依赖___A___提供消息通信机制 A. Zookeeper B. Chubby C. RPC D. Socket 10. 下面与HDFS类似的框架是___C____? A. NTFS B. FAT32 C. GFS D. EXT3 11. 关于SecondaryNameNode 下面哪项是正确的___C___。 A. 它是NameNode 的热备 B. 它对内存没有要求 C. 它的目的是帮助NameNode 合并编辑日志,减少NameNode 启动时间 D. SecondaryNameNode 应与NameNode 部署到一个节点 12. 大数据的特点不包括下面哪一项___D___。 A. 巨大的数据量 B. 多结构化数据 C. 增长速度快 D. 价值密度高 HBase测试题 9. HBase 来源于哪一项? C

Hadoop入门—Linux下伪分布式计算的安装与wordcount的实例展示

开始研究一下开源项目hadoop,因为根据本人和业界的一些分析,海量数据的分布式并行处理是趋势,咱不能太落后,虽然开始有点晚,呵呵。首先就是安装和一个入门的小实例的讲解,这个恐怕是我们搞软件开发的,最常见也最有效率地入门一个新鲜玩意的方式了,废话不多说开始吧。 本人是在ubuntu下进行实验的,java和ssh安装就不在这里讲了,这两个是必须要安装的,好了我们进入主题安装hadoop: 1.下载hadoop-0.20.1.tar.gz: https://www.sodocs.net/doc/4b2691772.html,/dyn/closer.cgi/hadoop/common/ 解压:$ tar –zvxf hadoop-0.20.1.tar.gz 把Hadoop 的安装路径添加到环/etc/profile 中: export HADOOP_HOME=/home/hexianghui/hadoop-0.20.1 export PATH=$HADOOP_HOME/bin:$PATH 2.配置hadoop hadoop 的主要配置都在hadoop-0.20.1/conf 下。 (1)在conf/hadoop-env.sh 中配置Java 环境(namenode 与datanode 的配置相同): $ gedit hadoop-env.sh $ export JAVA_HOME=/home/hexianghui/jdk1.6.0_14 3.3)配置conf/core-site.xml, conf/hdfs-site.xml 及conf/mapred-site.xml(简单配置,datanode 的配置相同) core-site.xml: hadoop.tmp.dir /home/yangchao/tmp A base for other temporary directories. https://www.sodocs.net/doc/4b2691772.html, hdfs://localhost:9000 hdfs-site.xml:( replication 默认为3,如果不修改,datanode 少于三台就会报错)

实验3 Hadoop安装与配置2-伪分布式

实验报告封面 课程名称: Hadoop大数据处理课程代码: JY1124 任课老师:宁穗实验指导老师: 宁穗 实验报告名称:实验3 Hadoop安装与配置2 学生: 学号: 教学班: 递交日期: 签收人: 我申明,本报告的实验已按要求完成,报告完全是由我个人完成,并没有抄袭行为。我已经保留了这份实验报告的副本。 申明人(签名): 实验报告评语与评分: 评阅老师签名:

一、实验名称:Hadoop安装与配置 二、实验日期:2015年9 月25 日 三、实验目的: Hadoop安装与配置。 四、实验用的仪器和材料: 安装环境:以下两个组合之一 1.硬件环境:存ddr3 4G及以上的x86架构主机一部 系统环境:windows 、linux或者mac os x 软件环境:运行vmware或者virtualbox (2) 存ddr 1g及以上的主机两部及以上 五、实验的步骤和方法: 本次实验重点在ubuntu中安装jdk以及hadoop。 一、关闭防火墙 sudo ufw disable iptables -F 二、jdk的安装 1、普通用户下添加grid用户

2、准备jdk压缩包,把jdk压缩包放到以上目录(此目录可自行设置) 3、将jdk压缩包解压改名 改名为jdk:mv jdk1.7.0_45 jdk 移动到/usr目录下:mv jdk /usr(此目录也可自行设置,但需与配置文件一致)4、设置jdk环境变量 此采用全局设置方法,更改/etc/profile文件 sudo gedit /etc/profile 添加(根据情况自行设置) export JA VA_HOME=/usr/jdk export JRE_HOME=/usr/ jdk/jre export CLASSPATH=.:$JA V A_HOME/lib:$JRE_HOME/lib:$CLASSPATH export PA TH=$JA V A_HOME/bin: $JRE_HOME/ bin: $PATH 然后保存。 5、检验是否安装成功 java -version 二、ssh免密码 1、退出root用户,su grid 生成密钥 ssh-keygen –t rsa

hadoop安装最终版

一.在Microsoft Windows XP操作系统下,安装Ubuntu 8.04 lts server版本+ xubuntu桌面到VMware虚拟机上 1.下载ubuntu server 及xubuntu 1)Ubuntu 8.04 server: http://119.147.41.16/down?cid=A97349CDC5DF51672F26FCABACBF5BC5AF9AF89D &t=2&fmt=&usrinput=ubuntu 8.04&dt=1&ps=0_0&rt=0kbs&plt=0 2)Xubuntu: 可不下,不用桌面 http://119.147.41.16/down?cid=DADD7F929F5F442A7881C2B382865468B70B8AA5 &t=2&fmt=&usrinput=xubuntu&dt=1002002&ps=0_0&rt=0kbs&plt=0 3)VMware http://119.147.41.16/down?cid=9BAA5720718DE23B4F7312C915E8028E71779B39 &t=2&fmt=-1&usrinput=Vmware&dt=2056000&redirect=no 2.本人硬件环境(参考) CPU: 2 core 4.12G Memory: 2G ddr3 Mainboard Chip : Intel p43d3 Graphic Chip : N Geoforce 9600gs0 3.本人软件环境(参考) OS : Microsoft windows xp sp3 VM: vmware5.5.1.19175 Linux: Ubuntu linux 8.04 lts server(iso) + xubuntu (ISO) 4.设置虚拟环境 1)安装VMware :略(出现警告仍然继续,sn: E8HFE-5MD6N-F25DC-4WRNQ, 可不汉 化) 2)打开VMware Workstation软件,点击“file”菜单,选择“new”-“virtual machine” 命令 3)弹出新建虚拟机向导,点击“下一步”按钮 4)在“virtual machine configuration”中,选择第二项“custom”单选项目,点击 “下一步”按钮 5)在“virtual machine format”中,选择第一项“new - Workstation 5”单选项目, 点击“下一步”按钮 6)之后将询问虚拟机的操作系统,我们在“guest operating system”中选择“Linux”, 在下面的版本中选择“Ubuntu”,点击“下一步”按钮 7)这时询问虚拟机的名称和保存目录,请根据自己的需要进行设置。在此我使用 d:\\My Virtual Machines\Ubuntu,点击“下一步”按钮 8)虚拟处理器数,选择“one”,点击“下一步”按钮。(我是双核心处理器,所以 有这个项目) 9)这时提示分配虚拟机内存,请根据自己物理内存实际情况进行设置,建议至少 分配128MB内存,如果物理内存数量允许,推荐设置256MB内存。我的物理 内存是2GB,在此我使用虚拟机推荐的内存数量384MB,点击“下一步”按钮 10)网络连接类型。如果不想让虚拟机访问,请选择“不使用网络连接”。如果需要 访问网络,请根据自己的情况设置,在此我推荐使用第二项“NAT”,这个选项 让虚拟机使用宿主计算机的IP访问网络,宿主计算机将共享网络给虚拟机。点 击“下一步”按钮

Hadoop2.2.0+Hbase0.98.1+Sqoop1.4.4+Hive0.13完全安装手册

Hadoop2.2.0+Hbase0.98.1+Sqoop1.4.4+Hive0.13 完全安装手册

前言: (3) 一. Hadoop安装(伪分布式) (4) 1. 操作系统 (4) 2. 安装JDK (4) 1> 下载并解压JDK (4) 2> 配置环境变量 (4) 3> 检测JDK环境 (5) 3. 安装SSH (5) 1> 检验ssh是否已经安装 (5) 2> 安装ssh (5) 3> 配置ssh免密码登录 (5) 4. 安装Hadoop (6) 1> 下载并解压 (6) 2> 配置环境变量 (6) 3> 配置Hadoop (6) 4> 启动并验证 (8)

前言: 网络上充斥着大量Hadoop1的教程,版本老旧,Hadoop2的中文资料相对较少,本教程的宗旨在于从Hadoop2出发,结合作者在实际工作中的经验,提供一套最新版本的Hadoop2相关教程。 为什么是Hadoop2.2.0,而不是Hadoop2.4.0 本文写作时,Hadoop的最新版本已经是2.4.0,但是最新版本的Hbase0.98.1仅支持到Hadoop2.2.0,且Hadoop2.2.0已经相对稳定,所以我们依然采用2.2.0版本。

一. Hadoop安装(伪分布式) 1. 操作系统 Hadoop一定要运行在Linux系统环境下,网上有windows下模拟linux环境部署的教程,放弃这个吧,莫名其妙的问题多如牛毛。 2. 安装JDK 1> 下载并解压JDK 我的目录为:/home/apple/jdk1.8 2> 配置环境变量 打开/etc/profile,添加以下内容: export JAVA_HOME=/home/apple/jdk1.8 export PATH=$PATH:$JAVA_HOME/bin export CLASSPATH=.:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar 执行source /etc/profile ,使更改后的profile生效。 执行以下命令,赋予JDK运行的权限: chmod 777 /home/apple/jdk1.8/bin/* chmod 777 /home/apple/jdk1.8/lib/*

hadoop伪分布式安装方法

hadoop 伪分布式安装方法 [日期:2014-04-30] 来源:51CTO 作者:晓晓 [字体:大 中 小] 接触Hadoop 也快两年了,也一直没自己总结过安装教程,最近又要用hadoop ,需要自己搭建一个集群来进行试验,所以就利用这个机会来写个教程以备以后自己使用,也用来和大家一起探讨。 要安装Hadoop 先安装其辅助环境 java Ubuntu 下java 的安装与配置 将java 安装在指定路径方便以后查找使用。 Java 安装 1)在/home/xx (也就是当前用户)目录下,新建java1.xx 文件夹:mkdir /home/xx/java1.xx (文件名上表明版本号,方便日后了解java 版本) 2)进入/home/xx/java1.xx 目录下,运行安装指令:sudo /home/xx /jdk-6u26-linux-i586.bin ,则生成文件夹jdk1.6.0_26,如果感觉名字太长,可以对其重命名:mv jdk1.6.0_26 jdk 也可以使用sudoapt-get install 软件包来安装java 。如果想卸载java 使用命令sudo rm -rf /home/x x/java1.6/jdk1.6(安装目录) 配置环境变量 进入profile 文件添加环境配置,命令为sudo gedit /etc/profile 在文件的末尾添加 1 2 3 4 5 6 7 JAVA_HOME=/home/xx/java1.xx/jdk JRE_HOME=/home/xx /java1.xx/jdk/jre PATH=$JAVA_HOME/bin:$JRE_HOME/bin: $PATH export JAVA_HOME export JRE_HOME export CLASSPATH export PATH 完成以上配置后重启电脑然后检验java 是否安装成功在终端输入java –version 后显示 说明java 安装成功。 Java 安装成功后接着进入正题进行Hadoop 的安装,本文先进行Hadoop 的伪分布安装随后会继续更新完全分布的安装过程。 本文使用的Hadoop 版本是hadoop-0.20.2,将hadoop-0.20.2.tar.gz 移至当前用户目录下进行解压t ar –zxvf hadoop-0.20.2.tar.gz 然后配置hadoop 的环境变量,其配置方法和java 的配置方法一样,在profile 中写入HADOOP_HOME =/home/xx/hadoop Java 和hadoop 的配好的环境变量如图

虚拟机环境下Hadoop伪分布式平台搭建详细过程

大数据技术平台搭建之Hadoop 1. Hadoop(伪分布式)平台搭建详细过程 1.1 工具 ?VMware12 ?CentOS 6.4 ?JDK-6u24-Linux-i586.bin ?Hadoop-1.1.2.tar.gz ?Scala-2.9.3.tgz ?Spark-1.4.0-bin-hadoop1.tgz ?Win10系统环境 1.2 详细搭建过程 1.2.1 安装虚拟机VMware Workstation 12 Pro 图1.1 VMware Workstation 12 Pro软件开始界面1.2.2 在虚拟机环境上安装Linux系统 (1)点击创建新的虚拟机按钮选择典型配置安装 图1.2 新建虚拟机向导

(2)选择Linux镜像文件,开始虚拟安装 图1.3 选择安装镜像文件(3)为新建的虚拟机命名,并选择安装目录 图1.4 命名、选择安装目录(4)指定虚拟机磁盘大小 图1.5 指定磁盘大小

(5)设置硬件、网络类型等虚拟机配置 图1.6 自定义虚拟机硬件 (6)点击完成按钮完成虚拟机安装 图1.7 CentOS_Linux虚拟机系统安装成功

1.2.3 配置Linux环境,为安装Hadoop做准备 (1)关闭防火墙 执行命令 service iptables status可以查看防火墙状态 执行命令 service iptables stop 关闭防火墙 图1.8 关闭防火墙并检验 执行命令chkconfig iptables off,关闭防火墙某些功能自启动 图1.9 关闭防火墙自启功能并检验 (2)设置网络连接 宿主机(Windows)和客户机(虚拟机中的Linux)采用host-only方式建立网络连接,具体步骤:右击桌面右上角网络连接图标,选择编辑网络连接,如下 图1.10 虚拟机网络设置窗口 接着点击按钮,设置IPv4地址,注意要和主机IP在同一网段 192.168.80.X 图1.11 设置ip窗口

hadoop + zookeeper +hive + hbase安装学习-12页文档资料

伪分布式安装Hadoop+zookeeper+hive+hbase安装配置 1.安装JDK,配置环境JAVA环境变量 export JAVA_HOME=/usr/lib/java-1.6.0/jdk1.6.0_37 export PATH=$PATH:$JAVA_HOME/bin export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib export HADOOP_INSTALL=/usr/hadoop/hadoop-1.0.3 export PATH=$PATH:$HADOOP_INSTALL/bin export JAVA_HOME=/user/local/jdk1.6.0_27 export JRE_HOME=/user/local/jdk1.6.0_27/jre export ANT_HOME=/user/local/apache-ant-1.8.2 export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH 2.安装Hadoop-1.0.3 2.1.下载hadoop文件,地址为:https://www.sodocs.net/doc/4b2691772.html,/coases.html,下载完 成后解压hadoop-1.0.3.tar.gz sudo tar -xzf hadoop-1.0.3.tar.gz 2.2.配置Hadoop环境变量 export HADOOP_INSTALL=/user/local/hadoop-1.0.3 export PATH=$PATH:$HADOOP_INSTALL/bin 激活profile文件: [root@localhost etc]# chmod +x profile [root@localhost etc]# source profile [root@localhost etc]# hadoop version 2.3.查看hadoop版本 [root@localhost ~]# hadoop version Hadoop 1.0.3 Subversion https://https://www.sodocs.net/doc/4b2691772.html,/repos/asf/hadoop/common/branches/branch-1.0 -r 1335192 Compiled by hortonfo on Tue May 8 20:31:25 UTC 2012 From source with checksum e6b0c1e23dcf76907c5fecb4b832f3be 输入 hadoop version命令后输入下图,则安装hadoop成功 2.4.修改配置文件 a)解压hadoop-1.0.3/hadoop-core-1.0.3.jar b)去解压后的hadoop-core-1.0.3文件夹下,复制文件core-default.xml,hdfs-default.xml,mapred-default.xml三个文件到hadoop-1.0.3/conf/下,删除hadoop-1.0.3/conf/文件夹下的core-site.xml,hdfs-site.xml,mapred-site.xml,将复制过来的三个文件的文件名中的default修改为site

Hadoop题库

A. 单机(本地)模式 B. 伪分布式模式 C. 互联模式 D. 分布式模式 2. Hadoop的作者是下面哪一位__B____。 A. Martin Fowler B. Doug cutting C. Kent Beck D. Grace Hopper 3. 下列哪个程序通常与 NameNode 在同一个节点启动__D___。 A. TaskTracker B. DataNode C. SecondaryNameNode D. Jobtracker 4. HDFS 默认 Block Size的大小是___B___。 5. 下列哪项通常是集群的最主要瓶颈____C__。 A. CPU B. 网络 C. 磁盘IO D. 内存 6. 下列关于MapReduce说法不正确的是_____C_。 A. MapReduce是一种计算框架 B. MapReduce来源于google的学术论文 C. MapReduce程序只能用java语言编写 D. MapReduce隐藏了并行计算的细节,方便使用 8. HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是 __D____。 A.一次写入,少次读 B.多次写入,少次读 C.多次写入,多次读 D.一次写入,多次读 9. HBase依靠__A____存储底层数据。

A. HDFS B. Hadoop C. Memory D. MapReduce 10. HBase依赖___D___提供强大的计算能力。 A. Zookeeper B. Chubby C. RPC D. MapReduce 11. HBase依赖___A___提供消息通信机制 A. Zookeeper B. Chubby C. RPC D. Socket 12. 下面与HDFS类似的框架是___C____? A. NTFS B. FAT32 C. GFS D. EXT3 13. 关于 SecondaryNameNode 下面哪项是正确的___C___。 A. 它是 NameNode 的热备 B. 它对内存没有要求 C. 它的目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间 D. SecondaryNameNode 应与 NameNode 部署到一个节点 14. 大数据的特点不包括下面哪一项___D___。 A. 巨大的数据量 B. 多结构化数据 C. 增长速度快 D. 价值密度高 HBase测试题 1. HBase来源于哪一项? C A The Google File System

hadoop.集群搭建详解

hadoop2.2.0集群搭建 PS:apache提供的hadoop-2.2.0的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装 hadoop-2.2.0就需要重新在64操作系统上重新编译 1.准备工作:(参考伪分布式搭建) 1.1修改Linux主机名 1.2修改IP 1.3修改主机名和IP的映射关系 1.4关闭防火墙 1.5ssh免登陆 1.6.安装JDK,配置环境变量等 2.集群规划:

PS: 在hadoop2.0中通常由两个NameNode组成,一个处于active 状态, 另一个处于standby状态。Active NameNode对外提供服务, 而Standby NameNode则不对外提供服务,仅同步active namenode 的状态,以便能够在它失败时快速进行切换。 hadoop2.0官方提供了两种HDFS HA的解决方案,一种是NFS,另一种是QJM。这里我们使用简单的QJM。在该方案中, 主备NameNode之间通过一组JournalNode同步元数据信息, 一条数据只要成功写入多数JournalNode即认为写入成功。 通常配置奇数个JournalNode

这里还配置了一个zookeeper集群,用于ZKFC (DFSZKFailoverController)故障转移,当Active NameNode挂 掉了,会自动切换Standby NameNode为standby状态3.安装步骤: 3.1.安装配置zooekeeper集群 3.1.1解压 tar -zxvf zookeeper-3.4.5.tar.gz -C /cloud/ 3.1.2修改配置 cd /cloud/zookeeper-3.4.5/conf/ cp zoo_sample.cfg zoo.cfg vim zoo.cfg 修改:dataDir=/cloud/zookeeper-3.4.5/tmp 在最后添加: server.1=hadoop01:2888:3888 server.2=hadoop02:2888:3888 server.3=hadoop03:2888:3888 保存退出 然后创建一个tmp文件夹

hadoopq集群搭建

疑难小结 1:HDFS进入安全模式: Name node is in safemode mode 退出安全模式, 执行命令: hadoop dfsadmin -safemode leave 2:INFO util.NativeCodeLoader - Unable to load native-hadoop library for your platform... using builtin-Java classes where applicable -- hadoop的本地库加载失败。 检查native库的版本信息,32bit的版本和64bit的版本在不匹配的机器上会加载失败,检查的命令是file native库依赖的glibc的版本问题。如果在高版本gcc(glibc)的机器上编译的native库,放到低版本的机器上使用,会由于glibc版本不一致导致该错误。 3: maps to localhost, but this does not map back 解决: 原因: 因为DNS服务器把 192.168.x.x 的地址都反向解析成 localhost ,而DNS服务器不是自己的,不能改。 办法: 编辑ssh 客户端的 /etc/hosts 文件,把出问题的IP 地址和主机名加进去,就不会报这样的错了。 4: jps命令正常,但是8088端口的WEB页面无法访问 解决方案: 检查一下防火墙和selinux状态, 将防火墙和selinux关闭 防火墙: service iptables status 永久修改: 修改/etc/selinux/config文件中设置SELINUX=disabled ,然后重启服务器。 5: 8088端口访问正常,但是看不到datanode节点 解决方案: 可能出现的问题和解决方案: 1.8080端口没有打开, 手动启动yarn 2.8080端口被其他进程占用, kill掉占用该端口的进程, 然后重启yarn

Hadoop试题题库

1. 以下哪一项不属于Hadoop 可以运行的模式___C A. 单机(本地)模式 B. 伪分布式模式 C. 互联模式 D. 分布式模式 2. Hadoop 的作者是下面哪一位__B A. Martin Fowler B. Doug cutting C. Kent Beck D. Grace Hopper 3. 下列哪个程序通常与NameNode 在同一个节点启动__D A. TaskTracker B. DataNode C. SecondaryNameNode D. Jobtracker 4. HDFS 默认Block Size 的大小是___B A. 32MB B. 64MB C. 128MB D. 256M 5. 下列哪项通常是集群的最主要瓶颈 ________ C A. CPU B. 网络 C. 磁盘IO D. 内存 6. ___________________________________ 下列关于MapReduce 说法不正确的是 __________________________________________ C_。 A. MapReduce 是一种计算框架 B. MapReduce 来源于google 的学术论文 C. MapReduce 程序只能用java 语言编写 D. MapReduce 隐藏了并行计算的细节,方便使用 8. HDFS 是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是__D ___ 。 A. —次写入,少次读 B. 多次写入,少次读

C. 多次写入,多次读 D. —次写入,多次读 9. HBase 依靠A 存储底层数据。 A. HDFS B. Hadoop C. Memory D. MapReduce 10. HBase 依赖—D—供强大的计算能力。 A. Zookeeper B. Chubby C. RPC D. MapReduce 11. HBase 依赖A 提供消息通信机制 A. Zookeeper B. Chubby C. RPC D. Socket 12. _____________________________ 下面与HDFS 类似的框架是___C ? A. NTFS B. FAT32 C. GFS D. EXT3 13. 关于SecondaryNameNode 下面哪项是正确的_______ C 。 A. 它是NameNode 的热备 B. 它对内存没有要求 C. 它的目的是帮助NameNode 合并编辑日志,减少NameNode 启动时间 D. SecondaryNameNode 应与NameNode 部署到一个节点 14. 大数据的特点不包括下面哪一项 A. 巨大的数据量 B. 多结构化数据 C. 增长速度快 D. 价值密度高

相关主题