搜档网
当前位置:搜档网 › 普开数据大数据课程培训讲解:hadoop安装步骤

普开数据大数据课程培训讲解:hadoop安装步骤

普开数据大数据课程培训讲解:hadoop安装步骤
普开数据大数据课程培训讲解:hadoop安装步骤

普开数据大数据课程培训讲解:hadoop安装步骤。本次环境一共三台服务器,JAVA使用的版本是jdk1.6.0_45,zookeeper-3.4.5,hadoop-2.0.0,hive-0.10.0,hbase-0.94.6

对于hadoop来说,在hdfs看来节点分为namenode、datanode。namenode只有一个,datanode可以是很多;在mapreduce 看来节点分为jobtracker、tasktracker,jobtracker只有一个,tasktracker有多个。我这里是将namenode和jobtracker 部署在同一节点上,datanode和tasktracker部署在其它节点上,

1.安装jdk,上传到/root目录下,执行

chmod a+x jdk-6u14-linux-x64.bin

./jdk-6u14-linux-x64.bin

将安装目录移动到/app目录下

mkdir/app

mv jdk1.6.0_45/app

建立链接:

mkdir-p/app/java/;(‐p确保目录名称存在,如果目录不存在的就新创建一个)

ln-sf/app/jdk1.6.0_45/app/java/latest/

(‐f:链结时先将与dist同档名的档案删除‐s:进行软链结(symbolic link))配置JAVA的环境变量

vi/etc/profile

添加如下内容:

export JAVA_HOME=/app/jdk1.6.0_45

export PATH=$JAVA_HOME/bin:$PATH

让添加的环境变量生效执行如下命令:

source/etc/profile;java–version

2.配置网络

以root账户登录每台服务器,并执行如下操作:

vi/etc/hosts

添加如下内容:

192.168.59.178vmtmstorm01

192.168.59.173monitor04

192.168.59.170monitor01

注:在所有服务器的/etc/hosts文件中添加如上内容;

同时,修改windows下该文件,使得个人的笔记本也能识别主机名c:\windows\system32\drivers\etc\hosts中添加如上内容。

3.配置SSH互信

SSH互信:在目标机器上,预先设置好经过认证的key文件,当需要访问目标机器时,目标机器通过key文件,对访问者进行自动认证,从而实现互信。

在任意一台服务器上,以bdp账号登陆(密码123)

执行如下命令,生成bdp账号的密钥对(这里是主机执行)

/usr/bin/ssh-keygen-t rsa

cd~/.ssh/

cp id_rsa.pub authorized_keys

chmod600authorized_keys

将~/.ssh目录拷贝覆盖到集群其他节点的bdp用户目录下

scp-r.ssh/192.168.59.173:~/

scp-r.ssh/192.168.59.170:~/

注意,要确保/etc/ssh/sshd_config的RSAAuthentication和PubkeyAuthentication为yes,(打开认证方式)改好后重启ssh服务/sbin/service sshd restart

执行ssh`hostname`测试是否配置成功

4.操作系统参数优化(每台机器,且以root操作)

4.1防火墙配置:关闭selinux/iptables(每台机器,root权限)

?关闭iptables

–停止服务:service iptables stop

–关闭服务自动启动:chkconfig--del iptables

?关闭selinux

–修改/etc/selinux/config里

SELINUX=disabled

4.2关闭swapiness,减少swap使用倾向(每台机器,root权限)

?当系统有swap时会很慢,所以让系统最大限度的使用物理内存(默认vm.swappiness=60)

?修改/etc/sysctl.conf,增加一行vm.swappiness=0

echo"vm.swappiness=0">>/etc/sysctl.conf

?动态生效sysctl-w vm.swappiness=0(-w临时改变某个指定参数的值)

?查看是否生效cat/proc/sys/vm/swappiness

(/proc可以在该目录下获取系统信息,这些信息是在内存中由系统自己产生的)注:sysctl.conf是一个用于在系统运作中查看及调整系统参数的工具

4.3最大打开文件数和最大进程数limits.conf(每台机器,root权限)

?Linux默认是1024,对于分布式文件系统太小,Hadoop有可能会报错误

?执行ulimit-a,查看open files项和max user processes项

?执行下面脚本,修改这两项值

?echo"*-nofile1000000">>/etc/security/limits.conf

?echo"YOUR_USER_NAME-nproc1000000">>/etc/security/limits.conf

?sysctl–p

?重启服务器,执行ulimit-a查看是否修改成功

?在/etc/security/limits.conf中重复出现了多个YOUR_USER_NAME-nproc1000000

4.4屏蔽文件访问时间,优化/etc/fstab参数(每台机器,root权限)(注:未配置)

?HDFS存储着海量文件,如果屏蔽底层Linux的文件访问时间,会提高HDFS的IO

?修改/etc/fstab,添加如下noatime,nodiration,例如

LABEL=/data1/data1ext4defaults,noatime,nodiratime12

LABEL=/data2/data2ext4defaults,noatime,nodiratime12

LABEL=/data3/data3ext4defaults,noatime,nodiratime12

?重新mount或重启机器使之生效

?注:由于我们使用的是虚拟机,可以不配置该参数

4.5配置ntp时间同步(每台机器,root权限)

?在Hadoop集群中,要求服务器之间的时间同步

?选一台服务器作为NTP server,修改/etc/ntp.conf如下,

restrict default nomodify

server192.168.59.178

fudge192.168.59.178stratum8

并重启service ntpd restart

?在集群其他节点上,首先关闭NTP

service ntpd stop

?执行/usr/sbin/ntpdate NTPSERVER_IP进行同步,执行date查看是否正确

?再cron里加入同步命令:执行crontab–e(-e:执行文字编辑器来设定时程表,内定的文字编辑器是VI,),添加如下内容,使其每小时同步一次

00*/1***root/usr/sbin/ntpdate NTPSERVER_IP;/sbin/hwclock‐w

测试情况:/etc/ntp.conf文件下

192.168.59.178:

restrict default nomodify

server192.168.59.178

fudge192.168.59.178stratum8

192.168.59.173:

server192.168.59.178

fudge192.168.59.178stratum10

192.168.59.173:无修改

结果:三台机器时间已同步

补充:

crontab[-u user]filecrontab[-u user]{-l|-r|-e}

说明:

crontab是用来让使用者在固定时间或固定间隔执行程式之用,换句话说,也就是类似使用者的时程表。-u user是指设定指定user的时程表,这个前提是你必须要有其权限(比如说是root)才能够指定他人的时程表。如果不使用-u user的话,就是表示设定自己的时程表。

参数:

-e:执行文字编辑器来设定时程表,内定的文字编辑器是VI,如果你想用别的文字编辑器,则请先设定VISUAL环境变数来指定使用那个文字编辑器(比如说setenv VISUAL joe)

-r:删除目前的时程表

-l:列出目前的时程表

时程表的格式如下:

f1f2f3f4f5program

其中f1是表示分钟,f2表示小时,f3表示一个月份中的第几日,f4表示月份,f5表示一个星期中的第几天。program 表示要执行的程式。

当f1为*时表示每分钟都要执行program,f2为*时表示每小时都要执行程式,其余类推

当f1为a-b时表示从第a分钟到第b分钟这段时间内要执行,f2为a-b时表示从第a到第b小时都要执行,其余类推

当f1为*/n时表示每n分钟个时间间隔执行一次,f2为*/n表示每n小时个时间间隔执行一次,其余类推

5.Zookeeper安装

5.1ZK配置:单节点配置

在${ZOOKEEPER_HOME}/conf/zoo.cfg(/app/zookeeper-3.4.5-cdh4.3.0/conf/zoo.cfg)中做如下定义

tickTime=5000

dataDir=/app/zookeeper-3.4.5-cdh4.3.0/data(/tmp/zookeeper/tmp用来存放不同程序执行时产生的临时文件)clientPort=2181

配置参数

a)tickTime:每个tick的时间长度(毫秒),是zk中最小时间单元。

b)dataDir:内存快照(snapshot)和transaction log的存储目录

c)clientPort:用于服务client连接的端口号

5.2ZK配置:多节点配置(为3个节点的集群)

在${ZOOKEEPER_HOME}/conf/zoo.cfg(/app/zookeeper-3.4.5-cdh4.3.0/conf/zoo.cfg)中做如下定义tickTime=5000

dataDir=/app/zookeeper-3.4.5-cdh4.3.0/data

clientPort=2181

initLimit=10

syncLimit=5

server.1=192.168.59.178:4888:5888

server.2=192.168.59.173:4888:5888

server.3=192.168.59.170:4888:5888

?配置参数

–initLimit:刚选举出leader后,followers与leader连接和同步(connect/sync)的时间周期: initLimit*tickTime。

–syncLimit:正常工作状态下,允许followers与leader同步(sync)的时间,当follower与leader相差太大的话,该follower将被排除出集群。

–server.x=[hostname]:nnnnn[:nnnnn]第一个端口用于follower与leader连接,第二个端口用于leader election。

同时在dataDir目录下创建一个名为myid的文件,里面写入1或者2或者3,该值与zoo.cfg中的“server.#=…”的#

一致

需要在每个zookeeper上均执行bin/zkServer.sh start,该集群才可以正常工作

?启动zookeeper服务:bin/zkServer.sh start

?停止zookeeper服务:bin/zkServer.sh stop

由于HBase和Hadoop依赖于ZK,所以在停止ZK时需要首先关闭HBase和Hadoop。

?检查Zookeeper运行状态:

bin/zkCli.sh-server172.168.0.1:2181

或者直接运行bin/zkCli.sh

在shell中运行help来查看可用命令

[zk:localhost:2181(CONNECTED)0]help

ZooKeeper-server host:port cmd args

connect host:port

get path[watch]

ls path[watch]

set path data[version]

rmr path

delquota[-n|-b]path

quit

printwatches on|off

create[-s][-e]path data acl

stat path[watch]

close

ls2path[watch]

history

listquota path

setAcl path acl

getAcl path

sync path

redo cmdno

addauth scheme auth

delete path[version]

setquota-n|-b val path

6Hadoop安装

6.1Hadoop安装路径

/app/hadoop-2.0.0-cdh4.3.0

6.2配置Hadoop的环境变量

vi/etc/profile

添加如下内容:(192.168.59.178情况)

export HADOOP_HOME=/app/hadoop-2.0.0-cdh4.3.0

export PATH=.:$HIVE_HOME/bin:$HADOOP_HOME/bin:$JAVA_HOME/bin:$PATH 让添加的环境变量生效执行如下命令:

source/etc/profile;

6.3设置Hadoop需要的环境变量

添加Hadoop需要的环境变量

在$HADOOP_HOME/etc/hadoop-mapreduce1目录下的hadoop-env.sh中设置Hadoop需要的环境变量,其中JAVA_HOME是必须设定的变量export JAVA_HOME=/app/java/latest

修改slaves文件

在$HADOOP_HOME/etc/hadoop-mapreduce1目录下的slaves

添加vmtmstorm01monitor04monitor01(包含:所有tasktracker节点的IP/Hostname列表)masters文件

在$HADOOP_HOME/etc/hadoop-mapreduce1目录下的masters内容:localhost

修改core-site.xml文件

fs.defaultFS

hdfs://vmtmstorm01:8020---9000

The name for the cluster.HBase will use this to connect to HDFS

https://www.sodocs.net/doc/981840442.html,pression.codecs

https://www.sodocs.net/doc/981840442.html,press.DefaultCodec,https://www.sodocs.net/doc/981840442.html,press.GzipCodec,org.apache. https://www.sodocs.net/doc/981840442.html,press.BZip2Codec,https://www.sodocs.net/doc/981840442.html,press.SnappyCodec

hadoop.tmp.dir

/app/hadoop-2.0.0-cdh4.3.0/tmp

修改hdfs-site.xml文件

https://www.sodocs.net/doc/981840442.html,.dir

/home/bdp/dfs/nn--NameNode元数据存储目录,可多个,逗号分隔

dfs.data.dir

/home/bdp/dfs/data1,/home/bdp/dfs/data2,/home/bdp/dfs/data3

dfs.blocksize

268435456

https://www.sodocs.net/doc/981840442.html,node.secondary.http-address

vmtmstorm01:50070--secondarynamenode:50070

修改mapred-site.xml文件

mapred.job.tracker

vmtmstorm01:9001

mapred.local.dir

/home/bdp/mapred/local1,/home/bdp/mapred/local2,/home/bdp/mapred/local3

mapred做本地计算所使用的文件夹,可以配置多块硬盘,逗号分隔

mapred.map.tasks

1

默认每个job所使用的map数,意思是假设设置dfs块大小为64M,需要排序一个60M的文件,也会开启2个map线程,当jobtracker设置为本地是不起作用。

mapred.reduce.tasks

1

mapred.tasktracker.map.tasks.maximum

2

每服务器允许启动的最大map槽位数。

mapred.tasktracker.reduce.tasks.maximum

1

每服务器允许启动的最大reduce槽位数.

mapred.child.java.opts

https://www.sodocs.net/doc/981840442.html,.preferIPv4Stack=true-XX:+UseParallelGC

Java opts for the task tracker child processes.

The following symbol,if present,will be interpolated:@taskid@is replaced

by current TaskID.Any other occurrences of'@'will go unchanged.

For example,to enable verbose gc logging to a file named for the taskid in

/tmp and to set the heap maximum to be a gigabyte,pass a'value'of:

-Xmx1024m-verbose:gc-Xloggc:/tmp/@taskid@.gc

The configuration variable mapred.child.ulimit can be used to control the

maximum virtual memory of the child processes.

https://www.sodocs.net/doc/981840442.html,press.map.output

true

map输出结果在进行网络交换前是否以压缩格式输出,默认false,建议true,可以减小带宽占用,代价是会慢一些。

将该配置拷贝至所有tasktracker节点

将/app/hadoop-2.0.0-cdh4.3.0目录拷贝覆盖到集群其他节点,保证目录结构一致

scp-r/app/hadoop-2.0.0-cdh4.3.0192.168.59.173:/

scp-r/app/hadoop-2.0.0-cdh4.3.0192.168.59.170:/

6.4启动之前,我们先要格式化namenode/app/hadoop-2.0.0-cdh4.3.0下

仅在首次启动HDFS前执行

在NameNode执行

bin/hadoop namenode-format

6.5MapReduce服务启停:启停命令/app/hadoop-2.0.0-cdh4.3.0下

?启动MR集群

–bin-mapreduce1/start-mapred.sh会自动ssh到slaves配置的机器上启动DataNode

?停止MR集群

–bin-mapreduce1/stop-mapred.sh会自动ssh到slaves配置的机器上停止DataNode

?也可以启停单个服务

–Jobtracker

?启动:bin-mapreduce1/hadoop-daemon.sh start jobtracker

?停止:bin-mapreduce1/hadoop-daemon.sh stop jobtracker

–启动tasktracker

?bin-mapreduce1/hadoop-daemon.sh start tasktracker

bin-mapreduce1/hadoop-daemon.sh stop tasktracacker

6.6MapReduce服务启停:启停状态检查

通过Web查看:http://HOSTNAME_YOUR_JOBTRACKER:50030/

http://192.168.59.178:50030/jobtracker.jsp查看启动状态

6.7设软链接

ln–sf/app/hadoop-2.0.0-cdh4.3.0/home/bdp/hadoop-2.0.0-cdh4.3.0

7Hbase安装

7.1解压软件并安装

tar‐zxvf hbase‐0.94.6‐cdh4.3.0.tar.gz

安装在/app/hbase-0.94.6-cdh4.3.0

7.2cd到hbase-0.94.6-cdh4.3.0配置目录下

cd hbase‐0.94.6‐cdh4.3.0/conf/

配置regionservers,加入集群的主机名

vmtmstorm01

monitor01

7.3配置hbase环境变量

vi hbase‐env.sh

export JAVA_HOME=/app/java/latest(此处配置当前的JAVA_HOME路径)

export HBASE_MANAGES_ZK=false

7.4配置hbase-site.xml

vi hbase‐site.xml

?配置hbase.rootdir

hbase.rootdir

hdfs://vmtmstorm01:8020/hbase

?配置zookeeper集群

hbase.zookeeper.quorum

vmtmstorm01,monitor04,monitor01

//此处配置系统的zookeeper集群

7.4设软链接

ln–sf/app/hbase‐0.94.6‐cdh4.3.0/home/bdp/hbase‐0.94.6‐cdh4.3.0

8Hive安装

8.1安装前的准备工作

1).安装JDK1.6

2).安装Hadoop-1.0.4

3).安装MySQL5.x(项目路径:/var/lib/mysql)

8.2Hive安装路径

/app/hive-0.10.0-cdh4.3.0

8.3配置Hive的环境变量

vi/etc/profile

添加如下内容:(192.168.59.178情况)

export HIVE_HOME=/app/hive-0.10.0-cdh4.3.0

export PATH=.:$HIVE_HOME/bin:$HADOOP_HOME/bin:$JAVA_HOME/bin:$PATH 让添加的环境变量生效执行如下命令:

source/etc/profile;

8.4设置Hive需要的环境变量(/app/hive-0.10.0-cdh4.3.0/conf)

解压tar zxf hive-0.10.0-cdh4.3.0.tar.gz

修改hive-env.sh文件

指定HADOOP_HOME及HIVE_CONF_DIR的路径如下:

HADOOP_HOME=/app/hadoop-2.0.0-cdh4.3.0

export HIVE_CONF_DIR=/app/hive-0.10.0-cdh4.3.0/conf

修改hive-site.xml文件

javax.jdo.option.ConnectionURL

jdbc:mysql://localhost/hive?createDatabaseIfNotExist=true&autoReconnect=true the URL of the MySQL database

javax.jdo.option.ConnectionDriverName

com.mysql.jdbc.Driver

javax.jdo.option.ConnectionUserName

root

javax.jdo.option.ConnectionPassword

root

查看MySQL驱动mysql-connector-java-5.1.7-bin.jar是否存在于hive-0.10.0-cdh4.3.0/lib目录下,若没有拷贝到其下

Ganglia依赖以下包:302页

zlib-1.2.2-4

libpng-1.2.1-6

freetype2-2.1.7-2

libart_lgpl-2.3.16-1

rrdtool-1.2.11

perl

上传的数据存放在哪个目录下

/tmp/bdp/hive_job_log_114f6655-01c9-46b9-9238-40d185b1542f_1840308181.txt

cd${HIVE_HOME}/bin

./hive-hiveconf hive.root.logger=DEBUG,console进入hive异常控制台,调试

hive>show tables;

java.sql.SQLException:Your password has expired.To log in you must change it using a client that supports expired passwords.

com.mysql.jdbc.exceptions.jdbc4.MySQLNonTransientConnectionException:Could not create connection to database server.Attempted reconnect3times.Giving up

javax.jdo.JDOFatalDataStoreException:Could not create connection to database server.Attempted reconnect3

times.Giving up.

FAILED:ParseException line2:0missing EOF at'show'near'tables'

FAILED:Error in metadata:https://www.sodocs.net/doc/981840442.html,ng.RuntimeException:Unable to instantiate

org.apache.hadoop.hive.metastore.HiveMetaStoreClient

FAILED:Execution Error,return code1from org.apache.hadoop.hive.ql.exec.DDLTask

修改root用户的密码;

?

1 2 3 4 5 6[html]

mysql>update https://www.sodocs.net/doc/981840442.html,er set password=PASSWORD('newpassword')where User='root'; mysql>flush privileges;

mysql>quit

重新启动MySQL

/etc/init.d/mysql restart

root用户登录系统

/usr/local/mysql/bin/mysqladmin-u root-p password新密码

enter password旧密码

第二种方法:

root用户登录mysql数据库

mysql>update https://www.sodocs.net/doc/981840442.html,er set password=password(”新密码”)where User=”root”;

mysql>flush privileges;

mysql>quit;

mysql忘记root密码如何处理?

如果MySQL正在运行,首先结束mysql进程:killall mysqld

启动MySQL(非正常方式起动):/usr/local/mysql/bin/mysqld_safe–skip-grant-tables&

这样就可以不需要密码进入MySQL:/usr/local/mysql/bin/mysql-u root-p(要求输入密码时直接回车即可)mysql>update user mysql.set password=password(”新密码”)where user=”root”;

mysql>flush privileges;

mysql>quit;

重新结束进程:killall mysqld

用正常方式启动MySQL:/usr/local/mysql/bin/mysqld_safe-user=mysql&

service mysql start启动MYSQL

Starting MySQL...The server quit without updating PID file(/var/lib/mysql/monitor01.pid).[FAILED]

df–h查看磁盘使用情况

/var/lib/mysql/monitor01.err

VMwareTools-9.0.0-782409.tar.gz

ps-ef|grep mysql查看运行进程

5.启动使用

(1)启动

进入bin目录下,执行命令:hive

(2)查看当前库及表

show databases;//默认为:default

show tables;

(3)创建表示例

这部分为我自己的测试,测试数据见附件。

CREATE TABLE cite(citing INT,cited INT)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY','

STORED AS TEXTFILE;

CREATE TABLE cite_count(cited INT,count INT);

INSERT OVERWRITE TABLE cite_count

SELECT cited,COUNT(citing)

FROM cite

GROUP BY cited;

SELECT*FROM cite_count WHERE count>10LIMIT10;

CREATE TABLE age(name STRING,birthday INT)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY'\t'

LINES TERMINATED BY'\n'

STORED AS TEXTFILE;

CREATE TABLE age_out(birthday INT,birthday_count INT) ROW FORMAT DELIMITED

FIELDS TERMINATED BY'\t'

LINES TERMINATED BY'\n'

STORED AS TEXTFILE;

(4)查看表结构

desribe cite;

(5)加载数据

hive

Hadoop大数据平台架构与实践--基础篇

Hadoop大数据平台架构与实践--基础篇 大数据时代已经到来,越来越多的行业面临着大量数据需要存储以及分析的挑战。Hadoop,作为一个开源的分布式并行处理平台,以其高扩展、高效率、高可靠等优点,得到越来越广泛的应用。 本课旨在培养理解Hadoop的架构设计以及掌握Hadoop的运用能力。 导师简介 Kit_Ren,博士,某高校副教授,实战经验丰富,曾担任过大型互联网公司的技术顾问,目前与几位志同道合的好友共同创业,开发大数据平台。 课程须知 本课程需要童鞋们提前掌握Linux的操作以及Java开发的相关知识。对相关内容不熟悉的童鞋,可以先去《Linux达人养成计划Ⅰ》以及《Java入门第一季》进行修炼~~ 你能学到什么? 1、Google的大数据技术 2、Hadoop的架构设计 3、Hadoop的使用 4、Hadoop的配置与管理 大纲一览 第1章初识Hadoop 本章讲述课程大纲,授课内容,授课目标、预备知识等等,介绍Hadoop的前世今生,功能与优势 第2章 Hadoop安装 本章通过案例的方式,介绍Hadoop的安装过程,以及如何管理和配置Hadoop 第3章 Hadoop的核心-HDFS简介 本章重点讲解Hadoop的组成部分HDFS的体系结构、读写流程,系统特点和HDFS

的使用。 第4章 Hadoop的核心-MapReduce原理与实现 本章介绍MapReduce的原理,MapReduce的运行流程,最后介绍一个经典的示例WordCount 第5章开发Hadoop应用程序 本章介绍在Hadoop下开发应用程序,涉及多个典型应用,包括数据去重,数据排序和字符串查找。 课程地址:https://www.sodocs.net/doc/981840442.html,/view/391

Hadoop大数据平台介绍

Hadoop是什么 Apache Hadoop is an open source software framework for storage and large scale processing of data-sets on clusters of commodity hardware

Hadoop名字的由来 Hadoop was created by Doug Cutting and Mike Cafarella in 2005 Named the project after son's toy elephant

从移动数据到移动算法

Hadoop的核心设计理念?可扩展性 ?可靠性

相对于传统的BI 架构转变 数据仓库电子表格 视觉化工 具 数据挖掘集成开发工具 数据集市 企业应用工具 传统文件日志社交& 网络遗留系 统结构化 非结构化 音视频数据应用非关系型数据库内存数据库NO SQL 应用 Nod e Nod e Nod e Hadoop * Web Apps MashUps 导出/导入INSIGHTS 消费Create Map 存储/计算实时数据处理通道(Spark,Storm)数据交换平台数据存储计算平台数据访问 层Kafka Flume Goldengat e Shareplex ..传感器传感器

hadoop 的适用场景 小数据+ 小计算量OLTP 业务系统:ERP/CRM/EDA 大数据+ 小计算量如全文检索,传统的ETL 小数据+大计算量D a t a Compute 数据 计算 实时性

Hadoop大数据平台-测试报告及成功案例

Hadoop大数据平台测试报告及成功案例

目录 1技术规范书应答书 ................................. 错误!未定义书签。2技术方案建议 ......................................... 错误!未定义书签。3测试及验收 ............................................. 错误!未定义书签。4项目实施与管理 ..................................... 错误!未定义书签。5人员资质与管理 ..................................... 错误!未定义书签。6技术支持及保修 ..................................... 错误!未定义书签。7附录 ......................................................... 错误!未定义书签。

1.1 大数据平台测试报告 1.1.1某银行Cloudera CDH 性能测试测试 某银行现有HODS在支撑行内业务方面已经遇到瓶颈。希望通过搭建基于Hadoop 的历史数据平台(新HODS),以提升平台运行效率及数据覆盖面,支撑未来大数据应用,满足未来业务发展需求。本次POC测试的主要目的是验证Hadoop商业发行版(EDH) 是否可以满足某银行HODS应用特点,主要考察点包括: ?验证产品本身的易用性、可扩展性,主要涉及集群的部署、运维、监控、升级等; ?验证产品对安全性的支持,包括认证、授权、审计三大方面; ?验证产品对资源分配的控制与调度; ?验证Hadoop基本功能,包括可靠性、稳定性、故障恢复等; ?验证Hadoop子系统(包括HDFS、HBase、Hive、Impala等) 的性能、使用模式、设计思想、迁移代价等。 1.1.1.1基础设施描述 1.1.1.1.1硬件配置 硬件配置分为两类:管理节点(master node) 与计算节点(worker node)。 管理节点配置(2) CPU Intel? Xeon? E5-2650 v3 2.3GHz,25M Cache,9.60GT/s QPI,Turbo,HT,10C/20T (105W) Max Mem 2133MHz (40 vcore) 内存16GB RDIMM, 2133MT/s, Dual Rank, x4 Data Width (128GB) 网络Intel X520 DP 10Gb DA/SFP+ Server Adapter, with SR Optics

基于Hadoop的大数据平台实施——整体架构设计

基于Hadoop的大数据平台实施——整体架构设计大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星。我们暂不去讨论大数据到底是否适用于您的公司或组织,至少在互联网上已经被吹嘘成无所不能的超级战舰。好像一夜之间我们就从互联网时代跳跃进了大数据时代!关于到底什么是大数据,说真的,到目前为止就和云计算一样,让我总觉得像是在看电影《云图》——云里雾里的感觉。或许那些正在向你推销大数据产品的公司会对您描绘一幅乌托邦似的美丽画面,但是您至少要保持清醒的头脑,认真仔细的慎问一下自己,我们公司真的需要大数据吗? 做为一家第三方支付公司,数据的确是公司最最重要的核心资产。由于公司成立不久,随着业务的迅速发展,交易数据呈几何级增加,随之而来的是系统的不堪重负。业务部门、领导、甚至是集团老总整天嚷嚷的要报表、要分析、要提升竞争力。而研发部门能做的唯一事情就是执行一条一条复杂到自己都难以想象的SQL语句,紧接着系统开始罢工,内存溢出,宕机........简直就是噩梦。OMG!please release me!!! 其实数据部门的压力可以说是常人难以想象的,为了把所有离散的数据汇总成有价值的报告,可能会需要几个星期的时间或是更长。这显然和业务部门要求的快速响应理念是格格不入的。俗话说,工欲善其事,必先利其器。我们也该鸟枪换炮了......。 网上有一大堆文章描述着大数据的种种好处,也有一大群人不厌其烦的说着自己对大数据的种种体验,不过我想问一句,到底有多少人多少组织真的在做大数据?实际的效果又如何?真的给公司带来价值了?是否可以将价值量化?关于这些问题,好像没看到有多少评论会涉及,可能是大数据太新了(其实底层的概念并非新事物,老酒装新瓶罢了),以至于人们还沉浸在各种美妙的YY中。 做为一名严谨的技术人员,在经过短暂盲目的崇拜之后,应该快速的进入落地应用的研究中,这也是踩着“云彩”的架构师和骑着自行车的架构师的本质区别。说了一些牢骚话,

Hadoop大数据平台-建设要求及应答方案

Hadoop大数据平台建设要求及应答方案

目录 2技术规范书应答书 (2) 2.1业务功能需求 (4) 2.1.1系统管理架构 (4) 2.1.2数据管理 (12) 2.1.3数据管控 (26) 2.1.4数据分析与挖掘 (27) 2.2技术要求 (30) 2.2.1总体要求 (30) 2.2.2总体架构 (31) 2.2.3运行环境要求 (32) 2.2.4客户端要求 (35) 2.2.5数据要求 (36) 2.2.6集成要求 (36) 2.2.7运维要求 (37) 2.2.8性能要求 (49) 2.2.9扩展性要求 (50) 2.2.10可靠性和可用性要求 (52) 2.2.11开放性和兼容性要求 (57) 2.2.12安全性要求 (59)

1大数据平台技术规范要求 高度集成的Hadoop平台:一个整体的数据存储和计算平台,无缝集成了基于Hadoop 的大量生态工具,不同业务可以集中在一个平台内完成,而不需要在处理系统间移动数据;用廉价的PC服务器架构统一的存储平台,能存储PB级海量数据。并且数据种类可以是结构化,半结构化及非结构化数据。存储的技术有SQL及NoSQL,并且NoSQL能提供企业级的安全方案。CDH提供统一的资源调度平台,能够利用最新的资源调度平台YARN分配集群中CPU,内存等资源的调度,充分利用集群资源; 多样的数据分析平台–能够针对不用的业务类型提供不同的计算框架,比如针对批处理的MapReduce计算框架;针对交互式查询的Impala MPP查询引擎;针对内存及流计算的Spark框架;针对机器学习,数据挖掘等业务的训练测试模型;针对全文检索的Solr搜索引擎 项目中所涉及的软件包括: ?Hadoop软件(包括而不限于Hadoop核心) ?数据采集层:Apache Flume, Apache Sqoop ?平台管理:Zookeeper, YARN ?安全管理:Apache Sentry ?数据存储:HDFS, HBase, Parquet ?数据处理:MapReduce, Impala, Spark ?开发套件:Apache Hue, Kite SDK ?关系型数据库系统:SAP HANA企业版 ?ETL工具:SAP Data Services 数据管控系统的二次开发量如下: ?主数据管理功能 通过二次开发的方式实现主数据管理功能,并集成甲方已有的主数据管理系统。

部署Hadoop大数据平台部署Hadoop平台

课题:项目3 部署Hadoop大数据平台第2部分部署Hadoop平台课次:第7次教学目标及要求: (1)任务1 JDK的安装配置(熟练掌握) (2)任务2部署Hadoop(熟练掌握) (3)任务3 理解启动Hadoop(熟练掌握) 教学重点: (1)任务1 JDK的安装配置 (2)任务2 部署Hadoop (3)任务3 启动Hadoop 教学难点: (1)任务2 部署Hadoop (2)任务3 启动Hadoop 思政主题: 旁批栏: 教学步骤及内容: 1.课程引入 2.本次课学习内容、重难点及学习要求介绍 (1)任务1 JDK的安装配置 (2)任务2 部署Hadoop (3)任务3 启动Hadoop 3.本次课的教学内容 (1)任务1 JDK的安装配置(熟练掌握) Hadoop的不同版本与JDK的版本存在兼容性问题,所有必须选择对应 版本的JDK进行安装,表中列出了Hadoop和JDK兼容表。我们通过测试 使用Hadoop3.0.0 和JDK1.8。 安装JDK我们使用JDK包安装的方式。首先我们新建JDK的安装目录 /opt/bigddata。操作步骤为://定位opt目录【操作新建目录/opt/bigdata】

[root@master /]# cd /opt/ //在opt目录下新建bigdata文件夹 [root@master /]# mkdir bigdata //查看opt目录下文件夹是否存在 [root@master /]# ls bigdata [root@master /]# Jdk解压安装,步骤为:【操作解压步骤】 [root@master opt]# cd / [root@master /]# cd /opt/ [root@master opt]# ls bigdata jdk-8u161-linux-x64.tar.gz //解压jdk压缩包 [root@master opt]# tar -zxvf jdk-8u161-linux-x64.tar.gz [root@master opt]# ls bigdata jdk1.8.0_161 jdk-8u161-linux-x64.tar.gz //把Jdk目录移动至bigdata目录 [root@master opt]# mv jdk1.8.0_161/ bigdata [root@master opt]# cd bigdata/ //查看是否移动成功 [root@master bigdata]# ls jdk1.8.0_161 [root@master bigdata]# JDK配置环境变量,此步骤为添加JA V A_HOME变量,并配置JDK。具体步骤为:【操作JDK的配置】 //进入环境变量配置文件 [root@master /]# vi /etc/profile //添加如下信息 export JA V A_HOME="/opt/bigdata/jdk1.8.0_161" export PATH=$JA V A_HOME/bin:$PATH //激活环境变量配置文件 [root@master /]# source /etc/profile //验证JDK是否配置完成 [root@master /]# java -version java version "1.8.0_161" Java(TM) SE Runtime Environment (build 1.8.0_161-b12) Java HotSpot(TM) 64-Bit Server VM (build 25.161-b12, mixed mode)

HADOOP大数据平台配置方法(懒人版)

HADOOP大数据平台配置方法(完全分布式,懒人版) 一、规划 1、本系统包括主节点1个,从节点3个,用Vmware虚拟机实现; 2、主节点hostname设为hadoop,IP地址设为192.168.137.100; 3、从节点hostname分别设为slave01、slave02,slave03,IP地址设为192.168.137.201、192.168.137.202、192.168137.203。今后如要扩充节点,依此类推; 基本原理:master及slave机器的配置基本上是一样的,所以我们的操作方式就是先配置好一台机器,然后克隆3台机器出来。这样可以节省大量的部署时间,降低出错的概率。安装配置第一台机器的时候,一定要仔细,否则一台机器错了所有的机器都错了。 二、前期准备 1、在Vmware中安装一台CentOS虚拟机; 2、设置主机名(假设叫hadoop)、IP地址,修改hosts文件; 3、关闭防火墙; 4、删除原有的JRE,安装JDK,设置环境变量; 5、设置主节点到从节点的免密码登录(此处先不做,放在第七步做); 三、安装Hadoop 在hadoop机上以root身份登录系统,按以下步骤安装hadoop: 1、将hadoop-1.0.4.tar.gz复制到/usr 目录; 2、用cd /usr命令进入/usr目录,用tar –zxvf hadoop-1.0.4.tar.gz进行 解压,得到一个hadoop-1.0.4目录; 3、为简单起见,用mv hadoop-1.0.4 hadoop命令将hadoop-1.0.4文件夹 改名为hadoop; 4、用mkdir /usr/hadoop/tmp命令,在hadoop文件夹下面建立一个tmp 目录; 5、用vi /etc/profile 修改profile文件,在文件最后添加以下内容: export HADOOP_HOME=/usr/hadoop export PATH=$PATH:$HADOOP_HOME/bin 6、用source /usr/profile命令使profile 立即生效; 四、配置Hadoop Hadoop配置文件存放在/usr/hadoop/conf目录下,本次有4个文件需要修改。这4个文件分别是hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml。 1、修改hadoop-env.sh,在文件末添加如下内容: export JAVA_HOME=/usr/jdk (此处应与Java所在的目录一致) 2、修改core-site.xml文件,在文件中添加如下内容(教材109): hadoop.tmp.dir

文秘知识-浅谈大数据Hadoop技术 精品

浅谈大数据Hadoop技术 摘要:随着移动互联网、物联网、共享经济的高速发展,互联网每天都会产生数以万亿 的数据,这些海量数据被称作为大数据。在这个大数据时代,数据资源对我们生活产 生了巨大影响,对企业经营决策也有着前瞻性指导意义。因此,大数据已经被视为一 种财富、一种被衡量和计算价值的不可或缺的战略资源。该文从大数据Hadoop技术谈起、分别从Hadoop的核心技术、生态系统和Hadoop技术在教学中的应用四个方面进 行了阐述。 关键词:大数据;Hadoop; HDFS; MapReduce 中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2019)32-0010-02 当前,我国以信息技术为主导的创新经济高速发展,特别是依托于移动互联网和物联 网技术的网络购物、移动支付、共享单车、微信通信交流等等,给人们生活方式带来 了深刻的变革。整个互联网正在从IT(Information Technology)时代向DT(Data Technology)时代D变,在这个DT时代,人们从被动的数据浏览者转变为主动的数据 生产者,人们每天的网络购物信息、各种电子支付信息、使用共享单车信息、微信中 浏览朋友圈的信息等等,都会产生数以万亿级的数据,这样庞大的数据如何存储、如 何传输、如何计算、如何分析、如何保证数据的完整性和安全性等等一系列新的技术 挑战应运而生。然而,Hadoop技术代表着最新的大数据处理所需的新的技术和方法, 也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。 1 什么是Hadoop Hadoop是一个由Apache基金会所开发的,开源的分布式系统基础架构。简单地说就是一套免费的分布式操作系统。我们以前使用的计算机系统,都是安装在一台独立主机 上的单机版操作系统。例如我们熟知的微软公司的Windows操作系统和苹果公司的Mac OS。而分布式系统则是通过高速网络把大量分布在不同地理位置、不同型号、不同硬 件架构、不同容量的服务器主机连结在一起,形成一个服务器集群。分布式系统把集 群中所有硬件资源(CPU、硬盘、内存和网络带宽)进行整合统一管理,形成具有极高 运算能力,庞大存储能力和高速的传输能力的系统。 Hadoop就是以Linux系统为原型开发的大数据分布式系统。Hadoop具有很强的扩展性,只要是接通网络它就可以不断加入不同地域、不同型号、不同性能的服务器主机,以 提升集群的运算、存储和网络带宽,以满足大数据所需要的硬件要求。此外,Hadoop 还具有极强的安全性,由于分布式系统数据是存储在不同物理主机上的,而且Hadoop 数据一般每个数据存储三份,而且分布不同物理主机上,一旦其中一份数据损坏,其 余正常数据会很快替代它,这样很好地解决了数据完整性和安全性问题,为大数据提 供了安全高速稳定的系统平台。

hadoop是什么_华为大数据平台hadoop你了解多少

hadoop是什么_华为大数据平台hadoop你了解多少 Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储,对例如像ETL这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务(Map)发送到多个节点上,之后再以单个数据集的形式加载(Reduce)到数据仓库里。Hadoop是一个能够对大量数据进行分布式处理的软件框架。Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理PB 级数据。此外,Hadoop 依赖于社区服务,因此它的成本比较低,任何人都可以使用。 华为大数据平台hadoop你了解多少提到大数据平台,就不得不提Hadoop。Hadoop有三大基因:第一,Hadoop需要sharenothing的架构,所以它可以scale-out。第二,它是一个计算存储解耦的架构,好处是计算引擎可以多样化。举个例子,批处理有Hive,交互查询有Spark,机器学习还可以有后面的tensorflow这些深度学习的框架。第三,Hadoop是近数据计算的。因为大数据平台是一个数据密集的计算场景,在这种非场景下,IO会是个瓶颈,所以把计算移动到数据所在地会提升计算的性能。 网络技术的发展是推动大数据平台发展的一个关键因素。2012年以前是一个互联网的时代,这个时期互联网公司和电信运营商,掌握着海量的数据,所以他们开始利用Hadoop 平台来进行大数据的处理。那时候程序员自己写程序跑在Hadoop平台上来解决应用问题。2012年以后移动互联网的迅猛发展,这使得服务行业率先数字化。例如在金融行业,手机App让用户可以随时随地查询、转账,此时银行开始面临海量数据和高并发的冲击,就需要一个大数据平台来解决这个问题。这也就是为什么华为在2013年面向行业市场推出大

相关主题