搜档网
当前位置:搜档网 › 云计算简介

云计算简介

云计算简介
云计算简介

云计算简介

1.1云计算定义

云计算是从传统网格及分布式计算的基础上发展起来的,应用于现代互联网领域,以信息技术服务为商品,通过虚拟技术动态按需的由服务提供商向相关用户提供存储和计算的服务。云计算并不是一种新环境下的IT架构,它是对传统的网格、网络存储、虚拟化技术等相关技术的进一步融合与发展。而对用户而言,它是一种商业化的付费服务模式,用户通过付费,向提供云计算服务的企业索取信息计算、存储等相关服务,并受到云计算服务提供商的信息安全保护。

1.2云计算特点及类别

云计算特点非常突出,由于其是基于新一代的互联网而进一步发展的传统互联网技术,所以其本身具备传统互联网信息技术的特点,同时也具备了新环境下的互联网技术的新特点。云计算主要包括七大特点,而动态伸缩、按需服务则是作为区别传统互联网技术的主要特点。

1.2.1云计算特点

特点一大规模

云计算以其规模巨大,处理大数据集为优势,对大型数据计算和存储提供相应的解决方案。其基于网络平台的服务器高达数十甚至上百万,无论是从处理数据的规模还是配置都足以证明其规模的宏大。

特点二虚拟化

云计算以云为比拟,就是以虚拟作为其主要核心特点。云服务提供商通过对数据资源的集成化分散提供,用户以接口方式接入资源,实现数据分析处理,阻断了用户对数据资源底层技术细节的窥探,实现服务虚拟化。对用户而言,无需担心是否会出现物理性的系统负荷过度,只要服务器依然在提供相关数据处理服务即可完成自身的数据处理。

特点三动态伸缩

云计算平台规模是建立在企业的物理计算器规模之上的,但是却又不完全受物理规模的限制。准确的说,一台计算机可以为多个不同的服务器服务,而云平台的用户每次只需使用一个服务器,由于服务器的存在主要根据用户需要而存在,当用户数量增加或者减少时,云平台可以通过对服务器的数量进行相应的调整而适应用户的相应需求。故而可以动态的伸缩,实现规模上的灵活变化。

特点四按需分配

按需分配主要针对的是云计算的用户,用户无需预估自己在将来的信息数据处理需要,仅需按照现今个人的真实性需求而选用相应的云计算服务,云服务提供商根据用户需求进行数据处理服务的动态提供,可以满足用户对数据处理的快速稳定要求,同时也节省了其自身成本,这也是云计算服务价格低廉的原因之一。

特点五成本低

云计算成本较低除了用户当前需要处理成本较低外,最主要的原因是其规模巨大,由于不用对专门的用户设计数据处理模式,使得数据处理的模式统一,规范一致,自然减少了特征性研发的成本支出,同时,在构造大规模的云平台中,可以使用价格相对低廉的物理配置,对云提供商而言,这是其成本低廉的主要原因,同样,由于成本的减少,使得云服务的价格也得到下降,最后为用户提供的价格就相对较低。

特点六可靠性强

云计算是基于多种传统互联网信息技术的融合而进一步发展的技术,自身具备完整规范的管理策略和信息掌控,其提供商一般都是具备完善的数据管理能力的大型IT企业,对于用户而言,将个人的无序的存储计算远不如交由云服务提供商管理处理更为可靠,(当然其中出现的相关安全问题将由下章进行完整阐述)正是由于云服务提供商的高度规范管理,使得云计算呈现出一种高度的可靠性。

特点七用户数量多

云计算的盈利模式很大程度上与其用户众多关系密切,以网络作为媒介,云计算将数十亿的用户连接到一起,巨大的使用量使得其即使价格相对低廉,但依然存在着可观的利润,而这一些使得云计算服务提供商可以多方面的发展自己的数据处理能力,以适应不同类别的用户进行数据的处理,由于没有专门对某类数据进行深入研发处理模式,而是对众多的类别均有涉猎,足以吸引数以亿计的用户购买相关的数据处理服务。

1.2.2云计算类别

依据服务模式可以将云计算从下到上分为IaaS、PaaS 和SaaS,分别是Infrastructure(基础设施)as a Service,Platform(平台)as a Service,Software (软件)as a Service。而基础设施在最下端,平台在中间,软件在顶端。

依据部署模式可分为公有云、私有云以及混合云。公有云是由云服务提供商供给用户需要的全部资源,属于广义的云计算。私有云,与公有云性质上相反(主要指数据所有权),是由企业相关信息部部署的云系统,企业内部用户拥有该云系统的所有权。混合云,就是私有云与公有云混合使用,也包括使用不同云服务

提供商的云计算服务。

1.3云计算实现机制

云计算的实现机制主要是由企业推动,不同的企业有自己不同的实现机制与及相应的标准。下面简要介绍当前主要的云计算提供商。

(1)Google

Google 的云计算技术主要包括四个部分:Google 文件系统(Google File System,GFS)、分布式编程模型Map Reduce、分布式锁服务Chubby、分布式结构化数据表Big Table。

Google 直接向用户提供的云计算服务是GAE。GAE 属于PaaS 服务,Google 在云平台上提供API让用户自行开发自身应用程序,收费标准主要与使用频率和计算难度相关。

(2)Amazon

Amazon 云计算技术主要包括:弹性云计算(Elastic Cloud Computing,EC2)、简单存储服务(Simple Storage Service,S3)、简单数据库服务(Simple DB)和简单队列服务(Simple Queue Service,SQS)等。

Amazon 云服务同样是IaaS 的形式,其主要提供一个弹性云平台供用户部署自己的操作系统,因而在权限方面用户具有最高管理权。

(3)微软

微软的云计算平台为Windows Azure。这是PaaS 服务模式,在软件平台上针对云应用开发者。其用户通过使用相关的开发工具直接在该平台上开发自己的云应用。现在Windows Azure 已经实现了自身编程语言和.NET平台的直接使用,同时也支持PHP、C++ 等语言的支持。

(4)开源云计算

企业独自开发的云计算技术大多是封闭的,对于云计算的发展和推广存在阻碍,相关研究组织因为研究需要而开发了开源云计算技术,就比如有名的Openstack。Openstack 是由NASA和Rackspace 共同开发的开源代码项目,属于IaaS 模式的云计算系统,项目全部选择Python 语言进行编写,旨在创建同时适用于私有云和公有云的云计算平台,使用户快速搭建云平台,无须考虑系统规模。

1.4 Hadoop平台系统简介

在开源云计算系统之中,Hadoop是相当有名的,其起源为Apache 的Nutch

项目。早期Hadoop 系统可以有效地管理多台计算机的分布式计算和存储,不过依然无法成为商用搜索引擎。而其发展的大事件就是2006年Yahoo!的加入,使其从Nutch中独立出来,成为一个开源项目。

1.4.1 Hadoop系统组成

Hadoop 系统由四个模块组成,包括Hadoop Common、HDFS(Hadoop Distributed FileSystem,Hadoop 分布式文件系统)、Hadoop YARN 和Hadoop Mapreduce 。

Hadoop Common 对其它模块提供支持,自身没有独立进程。而HDFS 主要为Hadoop 其他模块提供分布式存储服务。

Hadoop YARN 属于一个框架,作用是资源调度和集群资源管理。它将JobTracker 中资源和作业生命周期管理的两个函数分离单独的模块,从而管理Hadoop 的计算资源。

Hadoop MapReduce 是Hadoop 系统中的分布式数据处理模型,是基于Google MapReduce原理的开源版本。如今Hadoop MapReduce 主要为基于YARN 架构的分布式数据处理模型。

1.4.2 Hadoop系统特性

主要指的是Hadoop系统的安全特性,早期的系统缺乏安全性设计,后得到Apache的专门改进,现在的版本已经存在一些重要的安全机制,其安全特性主要包括六大特性。

(1)添加权限认证

客户端通过Hadoop 的RPC 库访问相应的服务,在RPC 层添加权限认证机制,使得全部的RPC 使用简单认证和安全层(SimpleAuthentication and SecurityLayer,SASL)实现链接。

(2)分部认证

HDFS 将认证分成两部分:首先当客户端与NameNode 连接时进行认证;然后从DataNode 获取Block 时需要认证。前面主要使用Kerberos 协议认证以及授权令牌(delegation token)认证,授权令牌可以重复使用,作为后续访问HDFS 的凭证。另一部分则是NameNode 给客户端颁发认证令牌,客户端使用令牌从特定的DataNode 获取Block文件。

(3)任务以用户身份运行

Hadoop MapReduce 里面的task与用户身份一一对应,保证了用户免受其他用户的干扰。

(4)以安全模式启动HDFS

在启动时,NameNode 进入安全模式,此时系统不会写入任何的数据。NameNode 在安全模式下通过检查信息块最小副本数,当一定比例的数据块达到最小副本数时(一般为3),系统就会退出安全模式,反之,则会通过增补副本来达到相应的数据块比例。

(5)数据检测

当用户通过客户端从HDFS 得到数据时,客户端自动检测对数据进行检测,通过核对数据块的校验码以及(CheckSum)来验证数据块是否出现损坏、缺失、重复等错误,如果错误就自动获取其他DataNode的该类数据块副本,从而保证数据完整、正确。

(6)心跳机制

Hadoop平台中的HDFS 以及MapReduce 都存在心跳机制,JobTracker 和NameNode会定时的接收来自task以及DataNode发送的心跳数据。当心跳数据刷新中断时,任务失败,解决办法则是在其他节点reset task,从而确保程序有序运作。

相关主题