搜档网
当前位置:搜档网 › Hadoop大数据平台-建设要求及应答方案

Hadoop大数据平台-建设要求及应答方案

Hadoop大数据平台-建设要求及应答方案
Hadoop大数据平台-建设要求及应答方案

Hadoop大数据平台建设要求及应答方案

目录

2技术规范书应答书 (2)

2.1业务功能需求 (4)

2.1.1系统管理架构 (4)

2.1.2数据管理 (12)

2.1.3数据管控 (26)

2.1.4数据分析与挖掘 (27)

2.2技术要求 (30)

2.2.1总体要求 (30)

2.2.2总体架构 (31)

2.2.3运行环境要求 (32)

2.2.4客户端要求 (35)

2.2.5数据要求 (36)

2.2.6集成要求 (36)

2.2.7运维要求 (37)

2.2.8性能要求 (49)

2.2.9扩展性要求 (50)

2.2.10可靠性和可用性要求 (52)

2.2.11开放性和兼容性要求 (57)

2.2.12安全性要求 (59)

1大数据平台技术规范要求

高度集成的Hadoop平台:一个整体的数据存储和计算平台,无缝集成了基于Hadoop 的大量生态工具,不同业务可以集中在一个平台内完成,而不需要在处理系统间移动数据;用廉价的PC服务器架构统一的存储平台,能存储PB级海量数据。并且数据种类可以是结构化,半结构化及非结构化数据。存储的技术有SQL及NoSQL,并且NoSQL能提供企业级的安全方案。CDH提供统一的资源调度平台,能够利用最新的资源调度平台YARN分配集群中CPU,内存等资源的调度,充分利用集群资源;

多样的数据分析平台–能够针对不用的业务类型提供不同的计算框架,比如针对批处理的MapReduce计算框架;针对交互式查询的Impala MPP查询引擎;针对内存及流计算的Spark框架;针对机器学习,数据挖掘等业务的训练测试模型;针对全文检索的Solr搜索引擎

项目中所涉及的软件包括:

?Hadoop软件(包括而不限于Hadoop核心)

?数据采集层:Apache Flume, Apache Sqoop

?平台管理:Zookeeper, YARN

?安全管理:Apache Sentry

?数据存储:HDFS, HBase, Parquet

?数据处理:MapReduce, Impala, Spark

?开发套件:Apache Hue, Kite SDK

?关系型数据库系统:SAP HANA企业版

?ETL工具:SAP Data Services

数据管控系统的二次开发量如下:

?主数据管理功能

通过二次开发的方式实现主数据管理功能,并集成甲方已有的主数据管理系统。

应实现元数据管理功能,

#乙方应明确提出所能提供的项目团队在集成实施各阶段的人员参与数量和分工组成。提供人员的资质、级别以及在项目中的工作时间、工作内容。

若乙方的方案建议及有关配置符合相关国际或行业标准,则应在应答书中具体说明,并附上相应的详细技术资料。若乙方的软件产品包含自己专用标准,也应在应答书中具体说明,并附上相应的详细技术资料。

HDFS(Hadoop Distributed File System),是一个分布式文件系统。它具有高容错性的特点,可以被广泛的部署于廉价的PC之上。它以流式访问模式访问应用程序的数据,这大大提高了整个系统的数据吞吐量,能够满足多来源、多类型、海量的数据存储要求,因而非常适用于日志详单类非结构化数据的存储。

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。HBase 不是一个关系型数据库,其设计目标是用来解决关系型数据库在处理海量数据时的理论和实现上的局限性。HBase 从一开始就是为Terabyte 到Petabyte 级别的海量数据存储和高速读写而设计,这些数据要求能够被分布在数千台普通服务器上,并且能够被大量并发用户高速访问。

MapReduce 是用于并行处理大数据集的软件框架。MapReduce 的根源是函数性编程中的map 和reduce 函数。Map 函数接受一组数据并将其转换为一个键/值对列表,输入域中的每个元素对应一个键/值对。Reduce 函数接受Map 函数生成的列表,然后根据它们的键缩小键/值对列表。MapReduce起到了将大事务分散到不同设备处理的能力,这样原本必须用单台较强服务器才能运行的任务,在分布式环境下也能完成了。

Hive是建立在Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop 中的大规模数据的机制。Hive 定义了简单的类SQL 查询语言,称为HQL,它允许熟悉SQL 的用户查询数据。同时,这个语言也允许熟悉MapReduce 开发者的开发自定义的mapper 和

reducer 来处理内建的mapper 和reducer 无法完成的复杂的分析工作。

Impala是运行于Apache Hadoop之上业界领先的大规模并行处理(MPP)SQL查询引擎,它将时下流行的分布式并行数据库技术和Hadoop进行结合,帮助用户能够直接查询存储于Hdfs和Hbase的数据而不用进行数据迁移或者转变。Impala设计之初就定位为Hadoop生态系统的一部分,因此,Impala和MapReduce,Hive,Pig以及Hadoop的其他组件,都享有共同的灵活的文件和数据格式。

Spark提供了一个快速的计算,写入,以及交互式查询的框架。相比于Hadoop,Spark 拥有明显的性能优势。Spark使用in-memory的计算方式,通过这种方式来避免一个Mapreduce工作流中的多个任务对同一个数据集进行计算时的IO瓶颈。Spark利用Scala 语言实现,Scala能够使得处理分布式数据集时,能够像处理本地化数据一样Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如:MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS 中,也可以将HDFS的数据导进到关系型数据库中。

Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。

1.1 业务功能需求

1.1.1系统管理架构

1.1.1.1#整体架构方面

1)大数据平台支持集团总部、省和地市三级使用方式。使用单位还包括下属单位和控

股公司等。

2)设计大数据平台整体框架,提出的建设方案应描述大数据平台对外提供的应用服

务,平台内部服务组件,各服务组件之间的关系,大数据平台数据流量流向等。

3)实现Hadoop系统与甲方现有Oracle数据库及TeraData数据仓库的无缝连接。

4)Hadoop系统应实现主流数据仓库的功能。

大数据平台建立后,会包含集团内部全量分析数据,并且支持大量并发分析操作,因此能够大数据平台支持集团总部、省和地市三级使用方式。使用单位还包括下属单位和控股公司等。

通过Data Services ETL工具,可以与现有的oracle以及teradata数据仓库进行无缝连接。并且Hive组件可以提供主流数据仓库的功能。Hive是建立在Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop 中的大规模数据的机制。Hive 定义了简单的类SQL 查询语言,称为HQL,它允许熟悉SQL 的用户查询数据。同时,这个语言也允许熟悉MapReduce 开发者的开发自定义的mapper 和reducer 来处理内建的mapper 和reducer 无法完成的复杂的分析工作。

1.1.1.2多应用方面

实现大数据平台多应用管理。支持对应用的服务级别管理(SLA)。实现应用的访问资源控制,支持资源隔离。

为了实现一个Hadoop 集群的集群共享、可伸缩性和可靠性,并消除早期MapReduce 框架中的JobTracker性能瓶颈,开源社区引入了统一的资源管理框架YARN。YARN 分层结构的本质是ResourceManager。这个实体控制整个集群并管理应用程序向基础计算资源的分配。ResourceManager 将各个资源部分(计算、内存、带宽等)精心安排给基础NodeManager(YARN 的每节点代理)。ResourceManager 还与ApplicationMaster 一起分配资源,与NodeManager 一起启动和监视它们的基础应用程序。在此上下文中,ApplicationMaster 承担了以前的T askTracker 的一些角色,ResourceManager 承担了

JobTracker 的角色。

ApplicationMaster 管理一个在YARN 内运行的应用程序的每个实例。ApplicationMaster 负责协调来自ResourceManager 的资源,并通过NodeManager 监视容器的执行和资源使用(CPU、内存等的资源分配)。请注意,尽管目前的资源更加传统(CPU 核心、内存),但未来会带来基于手头任务的新资源类型(比如图形处理单元或专用处理设备)。从YARN 角度讲,ApplicationMaster 是用户代码,因此存在潜在的安全问题。YARN 假设ApplicationMaster 存在错误或者甚至是恶意的,因此将它们当作无特权的代码对待。

NodeManager 管理一个YARN 集群中的每个节点。NodeManager 提供针对集群中每个节点的服务,从监督对一个容器的终生管理到监视资源和跟踪节点健康。MRv1 通过插槽管理Map 和Reduce 任务的执行,而NodeManager 管理抽象容器,这些容器代表着可供一个特定应用程序使用的针对每个节点的资源。

1.1.1.3多租户方面

实现大数据平台的多租户功能,包括但不限于多租户管理、租户的操作员管理、租户的分等分级分组管理、租户的度量管理、租户的角色管理、租户应用授权、租户数据隔离、租户的资源隔离等功能。

可以基于yarn进行二次开发,以满足上述的各种租户管理需求。工作量预估为20人天。

1.1.1.4*统一运维监控方面

1)统一运维监控功能包括但不限于:安全管理、用户管理、监控运维、服务调度、应

用部署、资源管理、作业编排、服务接口等。

2)实现图形化监控管理。监控内容包括但不限于:集群节点的运行状态、资源利用情

况、网络通讯情况、图形化的启动、停止、删除节点、新增节点、迁移任务、迁

移数据等操作。

3)可视化监控管理集群节点。

4)可视化监控管理数据对象。

5)可视化的租户管理。

6)实现平台日志管理。

7)实现平台审计管理。

8)实现告警管理。对问题源及时报警,并提供主动诊断功能。

9)对数据的备份与恢复管理。

10)实现数据处理过程追溯。

Cloudera提供了Web界面操作接口HUE,上层用户可以只用可视化的方式访问数据、提交任务等。HUE集成了用户访问控制,支持多租户隔离。

Cloudera Manager提供了许多监控功能,用于监测群集(主机,服务守护进程)健康、组件性能以及集群中运行的作业的性能和资源需求。具体包括以下监控功能: 服务监控

查看服务和角色实例级别健康检查的结果,并通过图表显示,有助于诊断问题。如果健康检查发现某个组件的状态需要特别关注甚至已经出现问题,系统会对管理员应该采取的行动提出建议。同时,系统管理员还可以查看上的服务或角色上操作的执行历史,也可以查看配置更改的审计日志。

主机监控

监控群集内所有主机的有关信息,包括:哪些主机上线或下线,主机上目前消耗的内存,主机上运行的角色实例分配,不同的机架上的主机分配等等。汇总视图中显示了

所有主机群集,并且可以进一步查看单个主机丰富的细节,包括显示主机关键指标的直观图表。

行为监控

Cloudera Manager提供了列表以及图表的方式来查看集群上进行的活动,不仅显示当前正在执行的任务行为,还可以通过仪表盘查看历史活动。同时提供了各个作业所使用资源的许多统计,系统管理员可以通过比较相似任务的不同性能数据以及比较查看同一任务中不同执行的性能数据来诊断性能问题或行为问题。

事件活动

监控界面可以查看事件,并使它们用于报警和搜索,使得系统管理员可以深入了解发生集群范围内所有相关事件的历史记录。系统管理员可以通过时间范围、服务、主机、关键字等字段信息过滤事件。

报警

通过配置Cloudera Manager可以对指定的事件产生警报。系通过管理员可以针对关键事件配置其报警阈值、启用或禁用报警等,并通过电子邮件或者通过SNMP的事件得到制定的警报通知。系统也可以暂时抑制报警事件,此限制可以基于个人角色、服务、主机、甚至整个集群配置,使得进行系统维护/故障排除时不会产生过多的警报流量。

审计事件

Cloudera Manager记录了有关服务、角色和主机的生命周期的事件,如创建角色或服务、修改角色或服务配置、退役主机和运行Cloudera Manager管理服务命令等等。系统管理员可以通过管理员终端查看,界面提供了按时间范围、服务、主机、关键

字等字段信息来过滤审计事件条目。

可视化的时间序列数据图表

系统管理员可以通过搜索度量数据,系统将根据指定规则创建数据,组(方面)数据的图表,并把这些图表保存到用户自定义的仪表板。

日志

介绍如何访问日志中的各种考虑到你正在查看当前上下文的方式。例如,监控服务时,你可以轻松地点击一个链接,查看相关的特定服务的日志条目,通过相同的用户界面。当查看关于用户的活动信息,您可以方便地查看了作业运行时所用的作业的主机上发生的相关日志条目。

报告

Cloudera Manager可以将收集到的历史监控数据统计生成报表,比如按目录查看集群作业活动的用户、按组或作业ID查看有关用户的磁盘利用率,用户组的历史信息等。这些报告可以根据选定的时间段(每小时,每天,每周,等等)汇总数据,并可以导出为XLS或CSV文件。同时系统管理员还可以管理包括搜索和配额等HDFS目录设置。

Cloudera Navigator的审计功能支持对于数据的审计和访问,其架构如下:

一旦配置了Cloudera Navigator审计功能,收集和过滤审核事件的插件将会被打开并插入到HDFS,HBase和Hive(也就是HiveServer2和Beeswax服务器)服务。该插件负责将审计事件写入到本地文件系统的审计日志中。而Cloudera Impala和Sentry则自己收集和过滤审核事件,并直接将其写入审计日志文件。支持的审计事件比如集群资源管理操作节点操作、用户操作、资源服务的启动和停止、应用程序操作等。

运行在每台服务器上的CM代理(Cloudera Manager Agent)会监视审计日志文件,并将这些事件发送到Navigator审计服务器(Navigator Audit Server)。如果任何消息在发送时失败,CM代理将会自动重试。由于没有使用临时内存缓冲区,一旦审计事件被写入审计日志文件,就可以保证被交付(只要文件系统可用)。CM代理记录并跟踪审计日志中当前成功发送的的审计事件,因此及时出现任何崩溃或重新启动,只需找到上次成功发送审计事件的位置,然后就可以重新开始发送。审核日志一旦被成功发送到Navigator审计服务器,CM代理会负责清除。如果一个插件无法将审计事件写入审计日志文件,它可以丢弃事件或停止正在运行的进程(取决于配置的策略)。

Navigator审计服务器执行以下功能:

■跟踪和合并事件

■存储事件给审计数据库

■数据处理过程追溯

数据的备份与恢复是企业级系统非常关键的功能,能够保障异常故障情况下,数据的完整性。Hadoop能够实现集群间的数据备份与灾难恢复工作,但是本身的配置以及实现非常的复杂与繁琐,不易于使用。CM提供了界面化的数据备份与灾难恢复。用户只需要在界面上进行简单的配置,就能够达到预期的效果。并且可以设置,数据备份的周期,带宽等参数,以保证在不影响业务的情况下,周期性的进行自动备份。

周期性的服务诊断

CM会对集群中运行的服务进行周期性的运行状况测试。以检测这些服务的状态是否正常。如果有异常情况会进行告警,有利于更早的让客户感知集群服务存在的问题

1.1.1.5作业调度管理方面

1)实现统一的作业调度与编排管理功能。使用工作流的可视化的方式对工作任务进行

统一编排和调度。

2)实现作业的资源管理、流程管理、任务管理、数据管理、应用管理、租户管理、多

ETL调度任务的部署和并行处理等功能。

需基于CDH进行二次开发实现。工作量预估为10人天

1.1.2数据管理

1.1.

2.1*结构化数据管理功能,包括但不限于对结构化数据的采集管理、数据加

工管理、数据存储管理、对外接口、实时监控、安全管理、数据重构等

功能。

通过基于sqoop进行二次开发来实现对结构化数据的采集管理,工作量预估为2人天、通过hive、impala或者spark、Hbase等组件来实现数据加工和存储管理的要求数据平台的应用接口是多样的:

HDFS:支持NFS,HTTP(Rest),Java API,FTP

HBase:Java API,Rest,Thrift,SQL(Apache Phoenix)

Hive:Shell,JDBC,ODBC

Impala:Shell,JDBC,ODBC,Python

Spark:Java/Scala API,SQL(Spark SQL),Python,R

通过Cloudera Manager 来实现实时监控

通过提供Kerberos认证和基于角色授权来满足安全管理的要求

1.1.

2.2*半/非结构化数据管理功能。包括但不限于半/非结构化数据的采集管理、

数据内容搜索、数据生命周期管理、数据加工管理、数据存储管理、对

外接口、混合查询、实时监控、自然语言查询、智能化知识检索功能

可以通过基于flume进行二次开发来满足半/非结构化数据的采集管理。工作量预估为2人天

通过Navigator完成数据生命周期管理。

Cloudera Search为CDH企业版提供了一站式全文检索功能,Cloudera Search是一个综合,灵活和强大的搜索解决方案,Cloudera Search是一个完全开源的搜索解决方案,内置功能丰富的和可扩展的Apache Solr的项目。 Apache Solr包括开源项目如Apache Lucene和Apache Tika。用户通过Cloudera Search可以不写任何程序代码,简单进行配置即可实现数据源ETL,创建并更新索引,数据入库定制查询界面等完整的数据全文检索工作流程,高度自动化的流水线提高了部署效率。通过该解决方案可以实现数据内容搜索,自然语言查询,智能化知识检索等功能。

组件贡献

HDFS 源文档一般被存放在HDFS中。这些文档被建立索引并被变成可被搜索的。

这些文件,如Lucene索引文件,被存放在HDFS中的直写日志,支持Search。使用HDFS提供了更简单,基数更大,冗余和容错的供

应。由于使用HDFS的结果,Search 服务器本质上是无状态的,这

意味着有在节点故障时产生最小的后果。

HDFS中还提供了额外的好处,如快照,跨群集复制,和灾难恢复。

MapReduce Search包括提前建立的基于MapReduce Job。Job可以被按需用来或者被安排来为存储在HDFS中任何支持的数据集合来建立索

引。Job为可扩展的批量索引优化了集群资源。

Flume Search 包括Flume Sink来把事件直接写入到部署在集群中的到索引器中,使其可以在摄入过程中建立数据索引。

ZooKeeper 协同分布式数据和元数据,也被Search的分片所用。ZooKeeper 提供自动的故障切换,增加了服务的弹性。

HBase 支持存储后数据的索引,提取列,列族和键信息作为字段。

因为HBase没有使用二级索引,Search可以完成HBase里面行和表内容的全文索引

Cloudera Manager

部署,配置,管理和监控搜索过程和在集群服务中的资源优化,搜索不要求一定有Cloudera Manager,但是Cloudera Manager帮助简化了搜索管理。

Impala 进一步的分析搜索结果,实现混合查询

Sqoop 批量摄入数据,并让批量建立索引过程中数据可用数据平台的应用接口是多样的:

HDFS:支持NFS,HTTP(Rest),Java API,FTP

HBase:Java API,Rest,Thrift,SQL(Apache Phoenix)

通过Cloudera Manager 来实现实时监控

1.1.

2.3*数据交换功能

1)实现数据源管理功能。数据源包括但不限于:各业务系统数据接入、互联网数据采

集、合作伙伴系统数据接入、外部临时数据导入支持等。

2)实现大数据平台内各存储区之间的数据交换功能。

3)大数据平台要提供可自定义的对外数据服务接口能力。

4)数据交换功能要支持数据接口热扩展能力。

可以通过CDH提供的数据采集组件来实现各种数据的接入。通过各组件自身提供的能力可以完成各存储区之间的数据交换。大数据平台支持自定义对外服务的接口并可以支持数据接口热扩展能力。

*数据采集方面

1)支持多种数据采集方式。采集方式包括但不限于:网上数据填报、流方式、批量导

入方式、实时数据采集、外部数据文件导入、异构数据库导入、主动数据抽取、增量追加方式、网上爬虫方式等。

2)支持不同频度、不同形态的企业内外部数据采集。

●Kafka

Kafka是一个分布式的消息处理引擎,具有极高性能,同时支持对消息的订阅和发布机制,基于Kafka可以非常方便的创造出复杂的消息处理工作流

●Sqoop

Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如:MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS 中,也可以将HDFS的数据导进到关系型数据库中。

●Flume

Flume是日志收集系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。

Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。

CDH创新性的将Flume和Kafka整合在一起,形成基于消息总线的分布式数据聚合系统,特别适合作为企业级数据总线基础架构和ETL框架基础架构。

1.1.

2.4#数据存储方面

1)数据存储管理功能。内容包括但不限于:数据分区划分方式、适用场景、对应计算

处理框架、硬件配置推荐等。

2)支持多存储层级,实现数据的多温度管理,能够将数据存储在不同IO读写速度的

不同介质上。

3)数据生命周期管理功能。

4)多种索引模式。具有索引分析与选择功能和工具。

5)多数据副本管理功能。

6)数据平衡、索引平衡的检测管理功能。实现自动平衡功能和数据自动重分布功能,

提供数据平衡和索引平衡的工具。

7)在线变动节点管理功能。支持在线增加、删除节点时,数据和索引的倾斜探测和自

动平衡功能,保证平滑扩展和性能的线性增长。

8)多种数据分区管理功能。

9)多数据类型管理功能。

10)多文件格式管理功能。

11)数据自定义标签管理功能。

12)数据块读写锁处理功能。

13)数据文件元数据备份和恢复功能。

14)数据压缩、表压缩功能,节省数据空间。

HDFS(Hadoop Distributed File System),是一个分布式文件系统。它具有高容错性的特点,可以被广泛的部署于廉价的PC之上。它以流式访问模式访问应用程序的数据,这大大提高了整个系统的数据吞吐量,能够满足多来源、多类型,多文件格式、海量的数据存储要求,因而非常适用于日志详单类非结构化数据的存储。

HDFS架构采用主从架构(master/slave)。一个典型的HDFS集群包含一个NameNode节点和多个DataNode节点。NameNode节点负责整个HDFS文件系统中的文件的元数据保管和管理,集群中通常只有一台机器上运行NameNode实例,DataNode 节点保存文件中的数据,集群中的机器分别运行一个DataNode实例。在HDFS中,NameNode节点被称为名字节点,DataNode节点被称为数据节点,DataNode节点通过心跳机制与NameNode节点进行定时的通信。

HDFS可以实现大规模数据可靠的分布式读写。HDFS针对的使用场景是数据读写具有“一次写,多次读”的特征,而数据“写”操作是顺序写,也就是在文件创建时的写入或者在现有文件之后的添加操作。HDFS保证一个文件在一个时刻只被一个调用者执行写操作,而可以被多个调用者执行读操作。其主要特性如下:

灵活:统一的存储可以存放结构化,半结构化及非结构化数据

可扩展:根据业务需要增加或者删除节点,并提供自动平衡的能力,保证平滑扩展和性能的线性增长

容错:数据有多个副本以保障数据的可靠性

开放:基于开源的存储格式,避免厂商锁定

平衡:默认有自动平衡和重分布的功能,同时提供了提供数据平衡和索引平衡的工具。高级特性:

CDH整合最新版本的HDFS,实现了对内存,SSD,磁盘相结合的异构式统一存储体系,将数据按照冷热程度不同自动存储在不同存储介质中,既可以利用内存,SSD的高性能加速实时数据分析过程,也能利用磁盘的低成本大容量存储较冷的数据。

Navigator模块,是唯一原生在Hadoop生态系统上的并提供全面数据管理服务的一套解决方案。该产品通过统一的用户接口可以有效协助系统管理员、数据经理以及分析师对平台中各式各样的数据进行管治、分类与探索,提供的功能有:

数据发现与探索:提供了一套标注工具帮助用户定制化数据标签与自动化识别数据标签。该功能可以有效加速用户发现有用数据、分析数据结构,进而提高数据复用率与数据商业价值;

元数据查询快速检索相关数据,加速数据发现流程

Hadoop大数据平台架构与实践--基础篇

Hadoop大数据平台架构与实践--基础篇 大数据时代已经到来,越来越多的行业面临着大量数据需要存储以及分析的挑战。Hadoop,作为一个开源的分布式并行处理平台,以其高扩展、高效率、高可靠等优点,得到越来越广泛的应用。 本课旨在培养理解Hadoop的架构设计以及掌握Hadoop的运用能力。 导师简介 Kit_Ren,博士,某高校副教授,实战经验丰富,曾担任过大型互联网公司的技术顾问,目前与几位志同道合的好友共同创业,开发大数据平台。 课程须知 本课程需要童鞋们提前掌握Linux的操作以及Java开发的相关知识。对相关内容不熟悉的童鞋,可以先去《Linux达人养成计划Ⅰ》以及《Java入门第一季》进行修炼~~ 你能学到什么? 1、Google的大数据技术 2、Hadoop的架构设计 3、Hadoop的使用 4、Hadoop的配置与管理 大纲一览 第1章初识Hadoop 本章讲述课程大纲,授课内容,授课目标、预备知识等等,介绍Hadoop的前世今生,功能与优势 第2章 Hadoop安装 本章通过案例的方式,介绍Hadoop的安装过程,以及如何管理和配置Hadoop 第3章 Hadoop的核心-HDFS简介 本章重点讲解Hadoop的组成部分HDFS的体系结构、读写流程,系统特点和HDFS

的使用。 第4章 Hadoop的核心-MapReduce原理与实现 本章介绍MapReduce的原理,MapReduce的运行流程,最后介绍一个经典的示例WordCount 第5章开发Hadoop应用程序 本章介绍在Hadoop下开发应用程序,涉及多个典型应用,包括数据去重,数据排序和字符串查找。 课程地址:https://www.sodocs.net/doc/581569316.html,/view/391

Hadoop大数据平台介绍

Hadoop是什么 Apache Hadoop is an open source software framework for storage and large scale processing of data-sets on clusters of commodity hardware

Hadoop名字的由来 Hadoop was created by Doug Cutting and Mike Cafarella in 2005 Named the project after son's toy elephant

从移动数据到移动算法

Hadoop的核心设计理念?可扩展性 ?可靠性

相对于传统的BI 架构转变 数据仓库电子表格 视觉化工 具 数据挖掘集成开发工具 数据集市 企业应用工具 传统文件日志社交& 网络遗留系 统结构化 非结构化 音视频数据应用非关系型数据库内存数据库NO SQL 应用 Nod e Nod e Nod e Hadoop * Web Apps MashUps 导出/导入INSIGHTS 消费Create Map 存储/计算实时数据处理通道(Spark,Storm)数据交换平台数据存储计算平台数据访问 层Kafka Flume Goldengat e Shareplex ..传感器传感器

hadoop 的适用场景 小数据+ 小计算量OLTP 业务系统:ERP/CRM/EDA 大数据+ 小计算量如全文检索,传统的ETL 小数据+大计算量D a t a Compute 数据 计算 实时性

Hadoop大数据平台-测试报告及成功案例

Hadoop大数据平台测试报告及成功案例

目录 1技术规范书应答书 ................................. 错误!未定义书签。2技术方案建议 ......................................... 错误!未定义书签。3测试及验收 ............................................. 错误!未定义书签。4项目实施与管理 ..................................... 错误!未定义书签。5人员资质与管理 ..................................... 错误!未定义书签。6技术支持及保修 ..................................... 错误!未定义书签。7附录 ......................................................... 错误!未定义书签。

1.1 大数据平台测试报告 1.1.1某银行Cloudera CDH 性能测试测试 某银行现有HODS在支撑行内业务方面已经遇到瓶颈。希望通过搭建基于Hadoop 的历史数据平台(新HODS),以提升平台运行效率及数据覆盖面,支撑未来大数据应用,满足未来业务发展需求。本次POC测试的主要目的是验证Hadoop商业发行版(EDH) 是否可以满足某银行HODS应用特点,主要考察点包括: ?验证产品本身的易用性、可扩展性,主要涉及集群的部署、运维、监控、升级等; ?验证产品对安全性的支持,包括认证、授权、审计三大方面; ?验证产品对资源分配的控制与调度; ?验证Hadoop基本功能,包括可靠性、稳定性、故障恢复等; ?验证Hadoop子系统(包括HDFS、HBase、Hive、Impala等) 的性能、使用模式、设计思想、迁移代价等。 1.1.1.1基础设施描述 1.1.1.1.1硬件配置 硬件配置分为两类:管理节点(master node) 与计算节点(worker node)。 管理节点配置(2) CPU Intel? Xeon? E5-2650 v3 2.3GHz,25M Cache,9.60GT/s QPI,Turbo,HT,10C/20T (105W) Max Mem 2133MHz (40 vcore) 内存16GB RDIMM, 2133MT/s, Dual Rank, x4 Data Width (128GB) 网络Intel X520 DP 10Gb DA/SFP+ Server Adapter, with SR Optics

基于Hadoop的大数据平台实施——整体架构设计

基于Hadoop的大数据平台实施——整体架构设计大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星。我们暂不去讨论大数据到底是否适用于您的公司或组织,至少在互联网上已经被吹嘘成无所不能的超级战舰。好像一夜之间我们就从互联网时代跳跃进了大数据时代!关于到底什么是大数据,说真的,到目前为止就和云计算一样,让我总觉得像是在看电影《云图》——云里雾里的感觉。或许那些正在向你推销大数据产品的公司会对您描绘一幅乌托邦似的美丽画面,但是您至少要保持清醒的头脑,认真仔细的慎问一下自己,我们公司真的需要大数据吗? 做为一家第三方支付公司,数据的确是公司最最重要的核心资产。由于公司成立不久,随着业务的迅速发展,交易数据呈几何级增加,随之而来的是系统的不堪重负。业务部门、领导、甚至是集团老总整天嚷嚷的要报表、要分析、要提升竞争力。而研发部门能做的唯一事情就是执行一条一条复杂到自己都难以想象的SQL语句,紧接着系统开始罢工,内存溢出,宕机........简直就是噩梦。OMG!please release me!!! 其实数据部门的压力可以说是常人难以想象的,为了把所有离散的数据汇总成有价值的报告,可能会需要几个星期的时间或是更长。这显然和业务部门要求的快速响应理念是格格不入的。俗话说,工欲善其事,必先利其器。我们也该鸟枪换炮了......。 网上有一大堆文章描述着大数据的种种好处,也有一大群人不厌其烦的说着自己对大数据的种种体验,不过我想问一句,到底有多少人多少组织真的在做大数据?实际的效果又如何?真的给公司带来价值了?是否可以将价值量化?关于这些问题,好像没看到有多少评论会涉及,可能是大数据太新了(其实底层的概念并非新事物,老酒装新瓶罢了),以至于人们还沉浸在各种美妙的YY中。 做为一名严谨的技术人员,在经过短暂盲目的崇拜之后,应该快速的进入落地应用的研究中,这也是踩着“云彩”的架构师和骑着自行车的架构师的本质区别。说了一些牢骚话,

Hadoop大数据平台-建设要求及应答方案

Hadoop大数据平台建设要求及应答方案

目录 2技术规范书应答书 (2) 2.1业务功能需求 (4) 2.1.1系统管理架构 (4) 2.1.2数据管理 (12) 2.1.3数据管控 (26) 2.1.4数据分析与挖掘 (27) 2.2技术要求 (30) 2.2.1总体要求 (30) 2.2.2总体架构 (31) 2.2.3运行环境要求 (32) 2.2.4客户端要求 (35) 2.2.5数据要求 (36) 2.2.6集成要求 (36) 2.2.7运维要求 (37) 2.2.8性能要求 (49) 2.2.9扩展性要求 (50) 2.2.10可靠性和可用性要求 (52) 2.2.11开放性和兼容性要求 (57) 2.2.12安全性要求 (59)

1大数据平台技术规范要求 高度集成的Hadoop平台:一个整体的数据存储和计算平台,无缝集成了基于Hadoop 的大量生态工具,不同业务可以集中在一个平台内完成,而不需要在处理系统间移动数据;用廉价的PC服务器架构统一的存储平台,能存储PB级海量数据。并且数据种类可以是结构化,半结构化及非结构化数据。存储的技术有SQL及NoSQL,并且NoSQL能提供企业级的安全方案。CDH提供统一的资源调度平台,能够利用最新的资源调度平台YARN分配集群中CPU,内存等资源的调度,充分利用集群资源; 多样的数据分析平台–能够针对不用的业务类型提供不同的计算框架,比如针对批处理的MapReduce计算框架;针对交互式查询的Impala MPP查询引擎;针对内存及流计算的Spark框架;针对机器学习,数据挖掘等业务的训练测试模型;针对全文检索的Solr搜索引擎 项目中所涉及的软件包括: ?Hadoop软件(包括而不限于Hadoop核心) ?数据采集层:Apache Flume, Apache Sqoop ?平台管理:Zookeeper, YARN ?安全管理:Apache Sentry ?数据存储:HDFS, HBase, Parquet ?数据处理:MapReduce, Impala, Spark ?开发套件:Apache Hue, Kite SDK ?关系型数据库系统:SAP HANA企业版 ?ETL工具:SAP Data Services 数据管控系统的二次开发量如下: ?主数据管理功能 通过二次开发的方式实现主数据管理功能,并集成甲方已有的主数据管理系统。

部署Hadoop大数据平台部署Hadoop平台

课题:项目3 部署Hadoop大数据平台第2部分部署Hadoop平台课次:第7次教学目标及要求: (1)任务1 JDK的安装配置(熟练掌握) (2)任务2部署Hadoop(熟练掌握) (3)任务3 理解启动Hadoop(熟练掌握) 教学重点: (1)任务1 JDK的安装配置 (2)任务2 部署Hadoop (3)任务3 启动Hadoop 教学难点: (1)任务2 部署Hadoop (2)任务3 启动Hadoop 思政主题: 旁批栏: 教学步骤及内容: 1.课程引入 2.本次课学习内容、重难点及学习要求介绍 (1)任务1 JDK的安装配置 (2)任务2 部署Hadoop (3)任务3 启动Hadoop 3.本次课的教学内容 (1)任务1 JDK的安装配置(熟练掌握) Hadoop的不同版本与JDK的版本存在兼容性问题,所有必须选择对应 版本的JDK进行安装,表中列出了Hadoop和JDK兼容表。我们通过测试 使用Hadoop3.0.0 和JDK1.8。 安装JDK我们使用JDK包安装的方式。首先我们新建JDK的安装目录 /opt/bigddata。操作步骤为://定位opt目录【操作新建目录/opt/bigdata】

[root@master /]# cd /opt/ //在opt目录下新建bigdata文件夹 [root@master /]# mkdir bigdata //查看opt目录下文件夹是否存在 [root@master /]# ls bigdata [root@master /]# Jdk解压安装,步骤为:【操作解压步骤】 [root@master opt]# cd / [root@master /]# cd /opt/ [root@master opt]# ls bigdata jdk-8u161-linux-x64.tar.gz //解压jdk压缩包 [root@master opt]# tar -zxvf jdk-8u161-linux-x64.tar.gz [root@master opt]# ls bigdata jdk1.8.0_161 jdk-8u161-linux-x64.tar.gz //把Jdk目录移动至bigdata目录 [root@master opt]# mv jdk1.8.0_161/ bigdata [root@master opt]# cd bigdata/ //查看是否移动成功 [root@master bigdata]# ls jdk1.8.0_161 [root@master bigdata]# JDK配置环境变量,此步骤为添加JA V A_HOME变量,并配置JDK。具体步骤为:【操作JDK的配置】 //进入环境变量配置文件 [root@master /]# vi /etc/profile //添加如下信息 export JA V A_HOME="/opt/bigdata/jdk1.8.0_161" export PATH=$JA V A_HOME/bin:$PATH //激活环境变量配置文件 [root@master /]# source /etc/profile //验证JDK是否配置完成 [root@master /]# java -version java version "1.8.0_161" Java(TM) SE Runtime Environment (build 1.8.0_161-b12) Java HotSpot(TM) 64-Bit Server VM (build 25.161-b12, mixed mode)

HADOOP大数据平台配置方法(懒人版)

HADOOP大数据平台配置方法(完全分布式,懒人版) 一、规划 1、本系统包括主节点1个,从节点3个,用Vmware虚拟机实现; 2、主节点hostname设为hadoop,IP地址设为192.168.137.100; 3、从节点hostname分别设为slave01、slave02,slave03,IP地址设为192.168.137.201、192.168.137.202、192.168137.203。今后如要扩充节点,依此类推; 基本原理:master及slave机器的配置基本上是一样的,所以我们的操作方式就是先配置好一台机器,然后克隆3台机器出来。这样可以节省大量的部署时间,降低出错的概率。安装配置第一台机器的时候,一定要仔细,否则一台机器错了所有的机器都错了。 二、前期准备 1、在Vmware中安装一台CentOS虚拟机; 2、设置主机名(假设叫hadoop)、IP地址,修改hosts文件; 3、关闭防火墙; 4、删除原有的JRE,安装JDK,设置环境变量; 5、设置主节点到从节点的免密码登录(此处先不做,放在第七步做); 三、安装Hadoop 在hadoop机上以root身份登录系统,按以下步骤安装hadoop: 1、将hadoop-1.0.4.tar.gz复制到/usr 目录; 2、用cd /usr命令进入/usr目录,用tar –zxvf hadoop-1.0.4.tar.gz进行 解压,得到一个hadoop-1.0.4目录; 3、为简单起见,用mv hadoop-1.0.4 hadoop命令将hadoop-1.0.4文件夹 改名为hadoop; 4、用mkdir /usr/hadoop/tmp命令,在hadoop文件夹下面建立一个tmp 目录; 5、用vi /etc/profile 修改profile文件,在文件最后添加以下内容: export HADOOP_HOME=/usr/hadoop export PATH=$PATH:$HADOOP_HOME/bin 6、用source /usr/profile命令使profile 立即生效; 四、配置Hadoop Hadoop配置文件存放在/usr/hadoop/conf目录下,本次有4个文件需要修改。这4个文件分别是hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml。 1、修改hadoop-env.sh,在文件末添加如下内容: export JAVA_HOME=/usr/jdk (此处应与Java所在的目录一致) 2、修改core-site.xml文件,在文件中添加如下内容(教材109): hadoop.tmp.dir

文秘知识-浅谈大数据Hadoop技术 精品

浅谈大数据Hadoop技术 摘要:随着移动互联网、物联网、共享经济的高速发展,互联网每天都会产生数以万亿 的数据,这些海量数据被称作为大数据。在这个大数据时代,数据资源对我们生活产 生了巨大影响,对企业经营决策也有着前瞻性指导意义。因此,大数据已经被视为一 种财富、一种被衡量和计算价值的不可或缺的战略资源。该文从大数据Hadoop技术谈起、分别从Hadoop的核心技术、生态系统和Hadoop技术在教学中的应用四个方面进 行了阐述。 关键词:大数据;Hadoop; HDFS; MapReduce 中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2019)32-0010-02 当前,我国以信息技术为主导的创新经济高速发展,特别是依托于移动互联网和物联 网技术的网络购物、移动支付、共享单车、微信通信交流等等,给人们生活方式带来 了深刻的变革。整个互联网正在从IT(Information Technology)时代向DT(Data Technology)时代D变,在这个DT时代,人们从被动的数据浏览者转变为主动的数据 生产者,人们每天的网络购物信息、各种电子支付信息、使用共享单车信息、微信中 浏览朋友圈的信息等等,都会产生数以万亿级的数据,这样庞大的数据如何存储、如 何传输、如何计算、如何分析、如何保证数据的完整性和安全性等等一系列新的技术 挑战应运而生。然而,Hadoop技术代表着最新的大数据处理所需的新的技术和方法, 也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。 1 什么是Hadoop Hadoop是一个由Apache基金会所开发的,开源的分布式系统基础架构。简单地说就是一套免费的分布式操作系统。我们以前使用的计算机系统,都是安装在一台独立主机 上的单机版操作系统。例如我们熟知的微软公司的Windows操作系统和苹果公司的Mac OS。而分布式系统则是通过高速网络把大量分布在不同地理位置、不同型号、不同硬 件架构、不同容量的服务器主机连结在一起,形成一个服务器集群。分布式系统把集 群中所有硬件资源(CPU、硬盘、内存和网络带宽)进行整合统一管理,形成具有极高 运算能力,庞大存储能力和高速的传输能力的系统。 Hadoop就是以Linux系统为原型开发的大数据分布式系统。Hadoop具有很强的扩展性,只要是接通网络它就可以不断加入不同地域、不同型号、不同性能的服务器主机,以 提升集群的运算、存储和网络带宽,以满足大数据所需要的硬件要求。此外,Hadoop 还具有极强的安全性,由于分布式系统数据是存储在不同物理主机上的,而且Hadoop 数据一般每个数据存储三份,而且分布不同物理主机上,一旦其中一份数据损坏,其 余正常数据会很快替代它,这样很好地解决了数据完整性和安全性问题,为大数据提 供了安全高速稳定的系统平台。

hadoop是什么_华为大数据平台hadoop你了解多少

hadoop是什么_华为大数据平台hadoop你了解多少 Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储,对例如像ETL这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务(Map)发送到多个节点上,之后再以单个数据集的形式加载(Reduce)到数据仓库里。Hadoop是一个能够对大量数据进行分布式处理的软件框架。Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理PB 级数据。此外,Hadoop 依赖于社区服务,因此它的成本比较低,任何人都可以使用。 华为大数据平台hadoop你了解多少提到大数据平台,就不得不提Hadoop。Hadoop有三大基因:第一,Hadoop需要sharenothing的架构,所以它可以scale-out。第二,它是一个计算存储解耦的架构,好处是计算引擎可以多样化。举个例子,批处理有Hive,交互查询有Spark,机器学习还可以有后面的tensorflow这些深度学习的框架。第三,Hadoop是近数据计算的。因为大数据平台是一个数据密集的计算场景,在这种非场景下,IO会是个瓶颈,所以把计算移动到数据所在地会提升计算的性能。 网络技术的发展是推动大数据平台发展的一个关键因素。2012年以前是一个互联网的时代,这个时期互联网公司和电信运营商,掌握着海量的数据,所以他们开始利用Hadoop 平台来进行大数据的处理。那时候程序员自己写程序跑在Hadoop平台上来解决应用问题。2012年以后移动互联网的迅猛发展,这使得服务行业率先数字化。例如在金融行业,手机App让用户可以随时随地查询、转账,此时银行开始面临海量数据和高并发的冲击,就需要一个大数据平台来解决这个问题。这也就是为什么华为在2013年面向行业市场推出大

相关主题