当前位置：搜档网 › 基于动态带宽分配的Hadoop数据负载均衡方法

基于动态带宽分配的Hadoop数据负载均衡方法

第４０卷第９期２０１２年９月

华南理工大学学报（自然科学版）

ＪｏｕｒｎａｌｏｆＳｏｕｔｈＣｈｉｎａＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ

（ＮａｔｕｒａｌＳｃｉｅｎｃｅＥｄｉｔｉｏｎ）

Ｖ０１．４０ＮＯ．９

Ｓｅｐｔｅｍｂｅｒ２０１２

文章编号：１０００－５６５Ｘ（２０１２）０９—００４２—０６

基于动态带宽分配的Ｈａｄｏｏｐ数据负载均衡方法木

林伟伟１刘波２

（１．华南理工大学计算机科学与工程学院，广东广州５１０００６；２．华南师范大学计算机学院，广东广州５１０６３１）

摘要：数据负载均衡对Ｈａｄｏｏｐ分布式文件系统（ＨＤＦＳ）性能有着重要的影响，针对ＨＤＦＳ中默认的数据负载均衡方法存在的效率低和缺乏灵活性的不足，文中提出了一种新的动态负载均衡方法，即通过控制变量来动态分配网络带宽以达到数据负载均衡．在此基础上建立了基于控制变量的数据负载均衡数学模型．实验结果表明，文中提出的方法既能保证ＨＤＦＳ的数据访问性能，又能提高集群加入新节点时的数据负载均衡效率．

关键词：Ｈａｄｏｏｐ；负载均衡；带宽

中图分类号：ＴＰ３９３ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１０００—５６５Ｘ．２０１２．０９．００８

随着互联网的快速发展和数据规模的增大，出现了越来越多的数据密集型应用，这些应用常常涉及数千兆字节的数据，适合大规模分布式数据处理的Ｈａｄｏｏｐ¨‘０ｊ随之产生。Ｈａｄｏｏｐ是ＭａｐＲｅｄｕｃｅ¨ｏ分布式编程模型和ＧＦＳ。８ｏ数据存储方式的开源实现，如今Ｈａｄｏｏｐ已经有很多较为成功的应用，如Ｙａｈｏｏ＿９ｊ和Ｆａｃｅｂｏｏｋ，其它网站（如Ｌａｓｔ．ｆｍ¨圳和Ａｍａｚｏｎ¨川等）也都在部署Ｈａｄｏｏｐ以管理基于大量数据的应用．当一个Ｈａｄｏｏｐ集群运行一定时间之后，节点的动态加入和退出会引起系统中数据负载的不均衡，新加入到集群中的数据节点需要进行负载均衡操作．数据负载均衡对云计算环境下的数据密集型应用的执行性能有着重要的作用。１２Ｉ，良好的负载均衡策略能有效地避免网络负载分布不均、数据流量拥挤、响应时问长等瓶颈，提高应用的执行效率．良好的负载均衡有两方面的含义：（１）大量的并发访问或数据流量分担到多个节点设备上分别处理，减少用户等待响应的时间；（２）单个重负载的运算分担到多个节点设备上并行处理，每个节点设备处理结束后，将结果汇总返回给用户，系统处理能力得到大幅提高．Ｈａｄｏｏｐ默认的ＨＤＦＳ¨３。负载均衡是以牺牲集群性能的方式来完成的．因此，需要设计一个在能保证ＨＤＦＳ性能最优的同时又能缩短整个负载均衡过程耗时的动态负载均衡方法．

虽然ＨＤＦＳ提供的数据负载均衡程序Ｂａｌａｎｃｅｒｌ１２ｊ可以对各个节点进行存储负载的平衡，但它采用静态负载均衡方法，需要手动调用该程序来实现数据负载均衡操作．此外，系统分配给Ｂａｌａｎｃｅｒ的网络带宽是固定的，而且数据负载均衡需要占用大量的网络带宽和时间，从而影响系统的性能．文献［１４—１５］针对云计算环境下工作负载的不均衡问题进行研究，给出了动态再分配负载和基于模糊预测的方法来实现工作负载均衡，提高了系统的资源利用率和性能．然而，这些方法并不是针对数据负载均衡的。为此，文中提出了一种新的Ｈａｄｏｏｐ数据负载均衡方法，引入控制变量来动态分配网络带宽，动态调整数据负载均衡和文件操作的网络带宽，以优化数据负载均衡，改善Ｈａｄｏｏｐ数据负载均衡的性能．

收稿日期：２０１２—０１—０５

￥基金项目：广东省自然科学基金资助项目（１０４５１０６４１０１００５１５５，￥２０１１０１０００１７５４）；广东省科技计划项目（２０１２８０１０１０００３０）；

广东省战略性新兴产业核心技术攻关项目（２０１１Ａ０１０８０１００２）；广州市海珠区科技计划项目（ｘ２ｊｓＢ２１２０７５０）

作者简介：林伟伟（１９８０一），男，博士，副教授，主要从事分布式计算、云计算、移动互联网研究．Ｅ－ｍａｉｌ：ｌｉｎｗｗ＠ｓｃｕｔ．ｅｄｕ．Ｃｒｔ

万方数据

第９期林伟伟等：基于动态带宽分配的Ｈａｄｏｏｐ数据负载均衡方法４３

１数据动态负载均衡的基本思想Ｈａｄｏｏｐ数据负载均衡的过程本质上就是数据块的移动操作．数据负载均衡过程启动后，集群会寻找利用率过高的数据节点和利用率过低的数据节点，然后把集群ＨＤＦＳ中的数据块从利用率高的数据节点转移到利用率低的数据节点上．该负载均衡过程主要是输入／输出（Ｉ／０）密集型操作，在数据节点的ＣＰＵ不是处于一个很高的占用率情况下，影响数据负载均衡过程的主要因素是网络宽带和磁盘Ｉ／Ｏ表现，其中网络宽带是影响负载均衡和整个Ｈａｄｏｏｐ集群性能的制约性因素．

如在百兆交换机和百兆网卡的宽带网络环境中进行数据传输时，一台机器收发数据的速率有一个１２．５ＭＢ／ｓ的理论峰值．某个空白节点在进行负载均衡的过程中，由于负载均衡需要占用部分宽带，假如此时该节点要接收来自客户端的数据或来自ＨＤＦＳ上传的数据，则数据的传输效率会受到影响．由于网络宽带是数据负载均衡及负载均衡时Ｈａｄｏｏｐ集群性能的主要制约因素，因此可以对网络流量进行实时监测，并根据网络流量状况判断当前节点是否存在负载均衡以外的其它作业．如果不存在其它作业则继续进行数据负载均衡过程，否则先自动暂停数据负载均衡过程而优先处理其它作业．这样既能保证Ｈａｄｏｏｐ作业的优先级和因负载均衡造成的性能损失，又能提高数据负载均衡速度．

２数据负载均衡的理论推导

Ｈａｄｏｏｐ的配置属性多达１９０个，其中有一个属性是“ｄｉｓ．ｂａｌａｎｃｅ．ｂａｎｄｗｉｄｔｈＰｅｒＳｅｃ”，该属性是设置负载均衡的最大宽带，其实际作用是在负载均衡的过程中用于负载均衡的网络宽带不能超过该属性值．Ｈａｄｏｏｐ中该属性的默认值是１ＭＢ／ｓ，即在负载均衡期间，无论集群有没有负载均衡以外的作业，都只能以１ＭＢ／ｓ的最大速度在不同数据节点之问传输数据块和实现数据负载均衡．文中对一个集群的数据负载均衡进行了测试，在负载均衡之前ＨＤＦＳ中本身有３．９ＧＢ的数据，当把此属性分别设置成１．０、１．５、２．０、４ＭＢ／ｓ来进行负载均衡时，整个负载均衡过程的耗时分别为３３．８０、２１．５０、１６．８０、８．９８ｍｉｎ．这表明负载均衡过程主要是Ｉ／０密集型操作，网络宽带与负载均衡的速度息息相关．２．１默认的数据负载均衡方法

假设ｆ（ｎ）为数据负载均衡（简称负载均衡）操作的实际总耗时（单位Ｓ），ｃ为默认的负载均衡宽带参数（常数项，ｃ＝１ＭＢ／ｓ），ｔ。为集群在仅存在负载均衡操作的情况下以默认负载均衡宽带进行负载均衡操作的期望耗时（单位Ｓ），ｎ为实际负载均衡宽带（为默认宽带的倍数），ｔ．（ｎ）为一次ＨＤＦＳ文件操作的实际总耗时（单位ｓ），ｔ。为集群在仅存在ＨＤＦＳ操作的情况下进行ＨＤＦＳ操作的期望耗时（单位Ｓ），Ｂ。为网络环境宽带峰值（单位ＭＢ／ｓ），Ｅ（ｎ）为负载均衡过程中ＨＤＦＳ的实际效率，则Ｈａｄｏｏｐ在负载均衡过程中同时进行ＨＤＦＳ操作的情况下，负载均衡和ＨＤＦＳ操作的耗时及ＨＤＦＳ的实际效率为

ｆ（凡）：鱼（１）

ｒｔ

＋Ｄ

ｆ。（ｎ）＝等（２）Ｅ（ｎ）＝而ｔｏ×１。。％（３）

假设Ｈａｄｏｏｐ集群中添加了一个新的从节点，并随即进行负载均衡操作；默认负载均衡操作期望耗时ｔ。＝１８００Ｓ，并且在负载均衡的过程中进行一次文件上传操作；在没有负载均衡的情况下，上传该文件期望耗时ｔ。，＝３００Ｓ；网络宽带峰值Ｂ。＝１２ＭＢ／ｓ，负载均衡宽带配置为默认的１ＭＢ／ｓ（ｎ＝１）．将这些参数代入式（１）一（３），可得负载均衡和ＨＤＦＳ操作的实际总耗时及ＨＤＦＳ的实际效率为ｔ（ｎ）＝１８００Ｓ，ｔｌ（ｎ）＝３２７．２７Ｓ，Ｅ（ｎ）＝９１．６７％．

图１（ａ）反映了在默认情况下负载均衡及上传文件的具体耗时情况．由于负载均衡的宽带为１ＭＢ／ｓ，因而理想状态下ＨＤＦＳ操作的宽带为１１ＭＢ／ｓ．原本在集群没有负载均衡作业时需３００ｓ的文件上传操作，现在需要３２７Ｓ才能完成，ＨＤＦＳ的实际效率为原来的９１．６７％．

由于负载均衡过程宽带值与耗时呈线性关系，现将负载均衡的宽带配置从默认的ｌＭＢ／ｓ更改为３ＭＢ／ｓ（即忍＝３），其余参数保持不变，代人式（１）一（３），可得到更改负载宽带之后负载均衡和ＨＤＦＳ操作的实际总耗时及ＨＤＦＳ的实际效率，分别为ｔ（ｎ）＝６００Ｓｔｔｌ（ｎ）＝４００ｓ，Ｅ（ｎ）＝７５．００％．

更改负载均衡宽带为３ＭＢ／ｓ后，ＨＤＦＳ操作的宽带为９ＭＢ／ｓ．原本在集群没有负载均衡作业时需３００Ｓ的文件上传操作，现在需要４００ｓ才能完成，

万方数据

华南理工大学学报（自然科学版）第４０卷

ＨＤＦＳ的实际效率仅为原来的７５．００％．由此可见，单纯提高负载均衡的宽带并不明智，虽然负载均衡的耗时大大缩短，但对ＨＤＦＳ效率的影响非常大，并且ＨＤＦＳ操作的ｔ。越大，受负载均衡影响的ＨＤＦＳ操作所需的额外时间ｔ．（ｎ）一ｔ。，越大，因为“ｎ）＿铲格飞砘（击一１），其中ｉ乇一１为常数．

／ＪＤ—ｎ乙

图１（ｂ）反映了在单纯更改宽带配置参数情况下负载均衡及上传文件操作的具体耗时情况．

负载均衡卜＿广—广１—广＿÷卜Ｔ＿一Ｔ—Ｔ＿一Ｔ一

上传文件卜Ｔ—广一ｒ＿

（ａ）负载均衡宽带为默认的１ＭＢ／ｓ

０：００５：００６：４０１０：００负载均衡＿一Ｔ—Ｔ—广１—千—厂打—一

：！；

上传文件卜］—Ｔ—Ｔ—广竹

ｊｉｉ

（ｂ）负载均衡宽带为３ＭＢ／ｓ

图１更改负载均衡宽带前后数据负载均衡及上传文件的耗时

Ｆｉｇ．１Ｔｉｍｅｃｏｎｓｕｍｐｔｉｏｎｏｆｄａｔａｌｏａｄｂａｌａｎｃｉｎｇａｎｄｕｐｌｏａ—ｄｅｄｆｉｌｅｂｅｆｏｒｅａｎｄａｆｔｅｒｂａｎｄｗｉｄｔｈｃｈａｎｇｅ

２．２动态的数据负载均衡方法

文中引入一个控制变量，为新节点的网络流量临界值．在理想状态下，假设某一３０Ｓ的时间段内，集群中的机器没有任何负载均衡以外的操作．按照Ｈａｄｏｏｐ的默认配置，负载均衡过程中接收数据块迁移的目标机器（新的从节点）将会在此３０Ｓ内接收到不大于３０ＭＢ的数据流量．如果把负载均衡的宽带设置为３ＭＢ／ｓ，则在此３０Ｓ内接收数据块迁移的目标机器将会接收到不大于９０ＭＢ的数据流量．在此基础上再乘以一个敏感系数，如１．１（１１０％，即允许１０％误差），即如果按照默认配置，在负载均衡状态下，目标机器接收到的数据流量在３３ＭＢ之内；如果按照３ＭＢ／ｓ的配置，目标机器接收到的数据流量会在９９ＭＢ之内．因此，可以定义网络流量监控变量的计算公式为

Ｃ，＝ｎＣＡＬ２Ｌ，

其中，ｃ。为网络流量临界值，△￡为监控周期（单位Ｓ），敏感系数Ａ为常数．在负载均衡宽带为１ＭＢ／ｓ、监控周期为３０Ｓ、敏感系数为１．１的情况下，网络流量临界值为３３ＭＢ；而在负载均衡宽带为３ＭＢ／ｓ、监控周期为３０Ｓ、敏感系数为１．１的情况下，网络流量临界值为９９ＭＢ．这个网络流量临界值是作为判断当前参与负载均衡的节点是否参与到负载均衡以外作业的标准，它表示的是该节点仅参与负载均衡作业时所接收网络流量的上限值．如果接收数据块的节点在３０Ｓ内所接收的数据量大于这个临界值，则判断此节点存在负载均衡以外的其它作业．敏感系数可以根据实际的集群环境作出修改，若此系数较大，则只能检测数据流量较大的连续ＨＤＦＳ操作，因为只有连续的ＨＤＦＳ操作时，才会在连续的３０Ｓ内使程序作出存在负载均衡以外作业的判断，此时程序对小型的突发性ＨＤＦＳ操作并不关心，但对于～个平均作业时问较长的集群来说，突发性的ＨＤＦＳ操作的性能损失亦可以忽略不计，因为这个性能损失的时问很短．

引入控制变量后的负载均衡流程如图２所示．监控从节点网络流量的动作通过捕获Ｌｉｎｕｘ下的／ｐｒｏｃ／ｎｅｔ／ｄｅｖ完成．在新加入的节点上执行负载均衡时，根据实际的网络流量来控制负载均衡．当该节点上ＨＤＦＳ操作的数据流量超出临界值时，就会自动停止负载均衡，确保ＨＤＦＳ的优先级；否则，启动负载均衡．同时，为了避免因ＨＤＦＳ数据请求业务繁

图２基于控制变量的数据负载均衡流程图Ｆｉｇ．２Ｆｌｏｗｃｈａｒｔｏｆｄａｔａｌｏａｄｂａｌａｎｃｉｎｇｂａｓｅｄｏｎｃｏｎｔｒｏｌｖａｒｉａｂｌｅｓ

万方数据

第９期

林伟伟等：基于动态带宽分配的Ｈａｄｏｏｐ数据负载均衡方法

４５

忙而一直不能进入负载均衡操作，增加了记录监听

周期的功能．当监听周期ｋ大于门限值ｄ时，ｄ值由

管理员根据实际需要设置，若设置ｄ＝１２００，则表示

经过１０ｈ（１２００×３０Ｓ＝３６０００Ｓ）后进行一次负载均

衡操作．

文中从数学角度来分析加入控制变量后的数据负载均衡及ＨＤＦＳ操作过程．假设ｔ’（ｎ）为数据动态

负载均衡操作的实际总耗时，ｔ｛（Ｉｔ）为一次ＨＤＦＳ文

件操作的实际总耗时，Ｅ’（凡）为数据动态负载均衡过程中ＨＤＦＳ的实际效率．假设负载暂停的滞后时间为ＡＤ（即需要ＡＤ才结束一次负载），当集群中

出现ＨＤＦＳ操作时，程序需要△Ｌ的时间来监听网络

流量，当检测到实际流量超过流量临界值时作出停止负载均衡的判断，即ＨＤＦＳ操作在前△三＋ＡＤ时间内仍然受到负载的影响．在△三＋ＡＤ内ＨＤＦＳ操

作的完成量为垡０塑Ｂ了Ｄ－ＩｔＣ．

ｔＯ

／５Ｄ

之后的ＨＤＦＳ操作因负载已经暂停而能以最高

的网络宽带进行数据块的传输操作，因此余下的

ＨＤＦＳ操作量与总的ＨＤＦＳ操作量的比例关系式为

－一半警

￡ｏ

日Ｄ

ｔｒ

ｔ０’

其中，ｔｒ为ＨＤＦＳ操作的剩余ｕ，７１＂．ｑ，由上式得：

卜ｔ。（，一半Ｂｏ％－ｎＣｔ／＇

ＨＤＦＳ操作的总时间为

“１加址挑…１垒半等）（４）

因为ＨＤＦＳ操作的最后一部分时间可能不足

ＡＬ，但在△￡内程序依然处于监听状态，负载并未重

新启动，期间负载的暂停时问为

ＬＵＢ（（?一半警Ｂ心盯１卜

＼＼

￡ｏ

。

』“

’

７

其中，ＬＵＢ（?）为求最小上界运算．

由于ＨＤＦＳ操作结束后，程序需要再监听△Ｌ后才

会作出重肩负载平衡的判断，因此负载暂停的总时间

为姗”半等弘盯１ｐ地

则整个负载的总耗时为

以小鲁一忙竺望豳龃＋址

Ｌ

ＡＤ

夕

（５）

Ｅ’（ｎ）＝

面ｔｏ万丽丽×１００％

△￡＋△Ｄ（曰Ｄ一凡Ｃ）……。

ＡＬ＋ＡＤ＋ｔｏ一

（６）

其中常数项△Ｌ＋△Ｄ一—ＡＬ—＋—ＡＤｌ（－Ｂ—Ｄ－一ｎＣ）≤ＡＬ＋ＡＤ，

／ＳＤ

因此舢ｔ越大，Ｅ’（ｎ）越接近１００％．也就是说，在利

用文中方法进行负载均衡时，所进行的ＨＤＦＳ操作

耗时越长，ＨＤＦＳ的性能损失越小．

将负载均衡的宽带配置从１ＭＢ／ｓ更改为３ＭＢ／ｓ

（ｎ＝３），其余参数保持不变，且引人流量控制，监

听周期为３０Ｓ（ＡＬ＝３０Ｓ），负载均衡暂停滞后６０

Ｓ

（ＡＤ＝６０Ｓ），则代入式（４）一（６）可得到采用文中方

法后数据负载均衡和ＨＤＦＳ操作的实际总耗时及ＨＤＦＳ的实际效率，分别为ｔ：（ｎ）＝３２２．５ｓ，ｔ’（ｎ）＝８７０Ｓ，Ｅ’（凡）＝９３．０２％．采用文中方法后数据负载均衡及文件上传操作的耗时情况如图３所示．

０：００

５：００５：２２

１０：００

１４：３０

负载均衡总耗时／ｍｉｎ＿＿Ｔ＿Ｔ］—广巾－Ｔ］—厂Ｔ１—广－『——１＿寸

实际负载时间，ｍｉｎ？落

｛｛—————ｉ了——一

暂停负载时间／ｒａｉｎ：——ｉ声

文件上传总耗时／ｍｉｎ卜ｒ＿ｒ—一＿ｒ叫

时间段内文件上传量肋２２．５

２０２０２０１７．５

图３

采用文中方法时数据负载均衡及文件上传总耗时

Ｆｉｇ．３

Ｔｉｍｅｃｏｎｓｕｍｐｔｉｏｎｏｆｄａｔａｌｏａｄｂａｌａｎｃｉｎｇａｎｄｕｐｌｏａ－

ｄｉｎｇｆｉｌｅｕｓｉｎｇｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄ

当负载均衡和文件上传操作同时开始时，在前

３０

Ｓ内节点已经检测到实际流量超过临界值，随即

停止负载均衡守护进程，在第３０秒到第９０秒期间

是等待此次负载均衡完全结束的时间（期间数据块依然在传输），由于文件上传操作在这段时间内受

到宽带的影响，故在９０ｓ内上传的文件总量应该为

２２．５％（在没有负载均衡情况下，１ｍｉｎ内理论上可上传２０％的文件）．从第９０秒开始负载均衡暂停，文件上传操作以原来的宽带继续进行（１２ＭＢ／ｓ）．

到第２７０秒尚剩余１７．５％的文件需要上传，按照

１２ＭＢ／ｓ的速度理论上需要５２．５ｓ．因为敏感系数设

置得比较小，如果在第２７０秒到第３３０秒内数据流量超过了临界值，则程序会在第３３０秒对此作出反

映，并等待３０ｓ。因第３３０秒到第３６０秒内没有

ＨＤＦＳ操作，故数据负载均衡在第３６０秒再次启动．

表１给出了３种数据负载均衡方法的性能对

比，通过更改Ｈａｄｏｏｐ负载均衡网络宽带虽然能对提

高负载均衡效率、减少负载均衡耗时起到立竿见影

万方数据

华南理工大学学报（自然科学版）第４０卷

的效果，但节点会以很大的性能损失为代价；通过更改网络宽带且引入控制变量来实现动态负载均衡，节点的性能损失与Ｈａｄｏｏｐ默认的负载均衡方法十分接近，而且能大大缩短完成整个负载均衡的总时间．

表１３种数据负载均衡方法的性能对比

ＴａｂｌｅｌＰｅｒｆｏｒｍａｎｃｅｃｏｍｐａｒｉｓｏｎｏｆｔｈｒｅｅｄａｔａｌｏａｄｂａｌａｎｃｉｎｇｍｅｔｈｏｄｓ

３实验与结果分析

采用３种数据负载均衡方法在实际的Ｈａｄｏｏｐ集群中进行负载均衡操作，以测试实际性能．在测试环境中，主节点和新加入集群的从节点均为Ｕｂｕｎｔｕ１０．０４ＬＴＳ的操作系统．主节点同时作为名字节点和数据节点，其配置如下：ＣＰＵ为酷睿２双核Ｔ７３００，２ＧＨｚ主频；内存为２ＧＢ．从节点仅作为数据节点，其配置如下：ＣＰＵ为酷睿２双核Ｅ４４００，２ＧＨｚ主频；内存为３ＧＢ．各节点之间的网络带宽为百兆宽带．在从节点加入到集群之前，集群ＨＤＦＳ中共有６．９ＧＢ数据（位于主节点的数据节点之上）．向集群中加入从节点后，在从节点上进行负载均衡操作．负载均衡开始后，在某个随机时刻主节点的数据节点发起ＨＤＦＳ文件上传操作，上传的文件量为１．１ＧＢ．由于集群数据块副本放置数为２，当主节点的数据节点发起文件上传操作时，数据会同时写入主节点和从节点的ＨＤＦＳ目录中．

３种负载均衡方法的宽带分别为１、３、３ＭＢ／ｓ，其中文中动态负载均衡方法的网络流量临界值为９０ＭＢ，实际测试结果如表２所示．

表２３种数据负载均衡方法的实验结果

Ｔａｂｌｅ２Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｆｔｈｒｅｅｄａｔａｌｏａｄｂａｌａｎｃｉｎｇｍｅｔｈｏｄｓ

从表２可知：（１）默认的负载均衡方法与动态负载均衡方法的文件上传耗时差别并不明显．这是因为前者虽然是在负载均衡的同时对ＨＤＦＳ进行操作，但９０％以上的宽带依然是留给ＨＤＦＳ作业使用的；后者的ＨＤＦＳ操作虽然在大部分时问内不受负载均衡的影响，但在负载均衡未暂停的时间内ＨＤＦＳ所受的影响远大于前者；只有在更大型的集群中进行连续且耗时非常长的ＨＤＦＳ操作时，后者在性能损失的表现上才会比前者有更明显的优势．（２）单纯更改宽带的方法与动态负载均衡方法的文件上传耗时差别比较大．这是因为前者是以牺牲ＨＤＦＳ操作性能的代价来提高负载均衡效率的，而后者只是在整个负载均衡过程中所消耗的时间比前者多（因为这个时间包含了进行ＨＤＦＳ操作时负载均衡处于暂停并等待的时问）．总之，文中动态负载均衡方法能在保证ＨＤＦＳ操作性能的情况下大大缩短了数据负载均衡的时间．

４结语

文中在研究Ｈａｄｏｏｐ集群数据负载平衡的原理和方法之后，对２种Ｈａｄｏｏｐ集群的负载均衡方法（Ｈａｄｏｏｐ默认的负载均衡方法和仅更改宽带的负载均衡方法）建立了数学模型并进行了分析，发现：默认的负载均衡方法虽然对Ｈａｄｏｏｐ节点的性能影响较小，但整个负载均衡的过程较为缓慢；仅更改宽带的负载均衡方法虽然较默认的负载均衡方法能大大缩短负载均衡的时问，但对Ｈａｄｏｏｐ节点性能的影响较大．为此，文中提出了一种根据节点网络流量进行动态负载均衡的方法，并建立其数学模型．分析结果表明，文中动态负载均衡方法能在保障节点性能的情况下，大大缩短集群数据负载均衡的耗时．３种负载均衡方法的实验结果表明，文中动态负载均衡方法既能保证ＨＤＦＳ系统的数据访问性能，又能提高集群加入新节点时的数据负载均衡效率．由于数据分布情况及数据副本的数量对数据负载均衡都有影响，故今后将重点综合多个因素来优化数据负载均衡的性能．

参考文献：

［１］Ａｐａｃｈｅ．Ｈａｄｏｏｐ［ＥＢ／ＯＬ］．［２０１２—０１—０３］．ｈｔｔｐ：／／ｌｕ—ｃｅｎｅ．ａｐａｃｈｅ．ｏｒｇ／ｈａｄｏｏｐ．

［２］林伟伟．一种Ｈａｄｏｏｐ数据放置的优化策略［Ｊ］．华南理工大学学报：自然科学版，２０１２，４０（１）：１５２—１５８．

ＬｉｎＷｅｉ—ｗｅｉ．ＡｎｉｍｐｒｏｖｅｄｄａｔａｐｌａｃｅｍｅｎｔｓｔｒａｔｅｇｙｆｏｒＨａ—

ｄｏｏｐ［Ｊ］．ＪｏｕｒｎａｌｏｆＳｏｕｔｈＣｈｉｎａＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ：

ＮａｔｕｒａｌＳｃｉｅｎｃｅＥｄｉｔｉｏｎ，２０１２，４０（１）：１５２—１５８．

万方数据

第９期

林伟伟等：基于动态带宽分配的Ｈａｄｏｏｐ数据负载均衡方法

４７

［３］［４］

［５］

［６］

［７］［８］

［９］

ＰｒａｓｈａｎｔＳ，ＫａｍａｌａｋａｒＫ．Ａｍｕｌｔｉ—ａｇｅｎｔｓｉｍｕｌａｔｉｏｎｆｒａｍｅ—

ｗｏｒｋ

ｏｎ

ｓｍａｌｌＨａｄｏｏｐｃｌｕｓｔｅｒ［Ｊ］．Ｅｎｇｉｎｅｅｒｉｎｇ

Ａｐｐｌｉｃａ—

ｔｉｏｎｓｏｆＡｒｔｉｆｉｃｉａｌ

Ｉｎｔｅｌｌｉｇｅｎｃｅ，２０１１，２４（７）：１１２０—１１２７．

Ｑｉｕ

Ｚｈｉ，ＬｉｎＺｈａｏ—ｗｅｎ，ＭａＹａｎ．ＲｅｓｅａｒｃｈｏｆＨａｄｏｏｐ—

ｂａｓｅｄｄａｔａｆｌｏｗｍａｎａｇｅｍｅｎｔ

ｓｙｓｔｅｍ［Ｊ］．ＴｈｅＪｏｕｒｎａｌ

ｏｆ

Ｃｈｉｎａ

Ｕｎｉｖｅｒｓｉｔｉｅｓ

ｏｆ

Ｐｏｓｔｓ

ａｎｄ

Ｔｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ，

２０１１，１８（２）：１６４一１６８．

ＹｅＸｉａｎｇｌｏｎｇ，ＨｕａｎｇＭｅｎｇｘｉｎｇ，ＺｈｕＤｏｎｇｈａｉ，ｅｔａ１．Ａｎｏ—

ｖｅｌｂｌｏｃｋｓｐｌａｃｅｍｅｎｔｓｔｒａｔｅｇｙｆｏｒ

Ｈａｄｏｏｐ［Ｃ］／／Ｐｒｏｃｅｅ—

ｄｉｎｇｓｏｆｔｈｅ１１ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ

ｏｎ

Ｃｏｍｐｕｔｅｒ

ａｎｄＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅ．ＷａｓｈｉｎｇｔｏｎＤＣ：ＩＥＥＥ，２０１２：

３—７．

ＳａｄａｓｉｖａｍＧ

Ｓ，Ｓｅｌｖａｒａｊ

Ｄ．ＡｎｏｖｅｌｐａｒａｌｌｅｌｈｙｂｒｉｄＰＳＯ—

ＧＡｕｓｉｎｇＭａｐＲｅｄｕｃｅ

ｔｏ

ｓｃｈｅｄｕｌｅ

ｊｏｂｓ

ｉｎＨａｄｏｏｐｄａｔａ

ｇｒｉｄｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ

ｏｆｔｈｅＳｅｃｏｎｄ

ＷｏｒｌｄＣｏｎｇｒｅｓｓ

ｏｎ

ＮａｔｕｒｅａｎｄＢｉｏｌｏｇｉｃＪｌｙＩｎｓｐｉｒｅｄＣｏｍｐｕｔｉｎｇ．Ｆｕｋｕｏｋａ：ＩＥＥＥ，

２０１０：１５—１７．

ＤｅａｎＪ，ＧｈｅｍａｗａｔＳ．ＭａｐＲｅｄｕｃｅ：ｓｉｍｐｌｉｆｉｅｄｄａｔａｐｒｏｃｅ—ｓｓｉｎｇ

ｏｎ

ｌａｒｇｅ

ｃｌｕｓｔｅｒｓ［Ｊ］．Ｃｏｍｍｕｎｉｃａｔｉｏｎｓ

ｏｆｔｈｅＡＣＭ，

２００８，５ｌ（１）：１０７—１１３．

ＧｈｅｍａｗａｔＳ．ＧｏｇｉｏｆｆＨ．ＬｅｕｎｇＰＴ．Ｔｈｅｇｏｏｇｌｅｆｉｌｅｓｙｓｔｅｍ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１９ｔｈＡＣＭＳｙｍｐｏｓｉｕｍ

ｏｎ

Ｏｐｅ—

ｒａｔｉｎｇＳｙｓｔｅｍｓＰｒｉｎｃｉｐｌｅｓ．ＮｅｗＹｏｒｋ：ＡＣＭ，２００３：２９—４３．

ＪｅｒｅｍｙＺ．Ｙａｈｏｏ！Ｌａｕｎｃｈｅｓｗｏｒｌｄ’ｓｌａｒｇｅｓｔＨａｄｏｏｐｐｒｏｄｕｃ—

ｌｉｏｎ

ａｐｐｌｉｃａｔｉｏｎ［ＥＢ／ＯＬ］．（２００８—０２—１９）［２０１２—０１—０３］．

ｈｔｔｐ：／／ｍａｒｃｂｏｕｃｈｅｒ．ｗｓ／２００８／０２／ｈａｄｏｏｐ—ｓｅａ］ｅｓ—ｒｅａｌｌｙ－

ｗｅｌｌ—ｙａｈｏｏ—ｌａｕｎｃｈｅｓ—ｗｏｒｌｄｓ—ｌａｒｇｅｓｔ—ｈａｄｏｏｐ—ｐｒｏｄｕｃｔｉｏｎ—ａｐ—ｐｌｉｃａｔｉｏｎ．ｈｔｍｌ．

ＬｏｕｇｈｒａｎＳｔｅｖｅ．Ａｐｐｌｉｃａｔｉｏｎｓｐｏｗｅｒｅｄｂｙ

Ｈａｄｏｏｐ［ＥＢ／

０Ｌ］．［２０１２—０１—０３］．ｈｔｔｐ：∥ｗｉｋｉ．ａｐａｃｈｅ．ｏｒｇ／ｈａｄｏｏｐ／

ＰｏｗｅｒｅｄＢｙ．

Ａｍａｚｏｎ．Ａｍａｚｏｎ

ｅｌａｓｔｉｃ

ｃｏｍｐｕｔｅ

ｃｌｏｕｄ［ＥＢ／ＯＬ］．

［２０１２—０１－０３］．ｈｔｔｐ：／／ａｗｓ．ａｍａｚｏｎ．ｅｏｍ／ｅｅ２．

郑湃，崔立真，王海洋，等，云计算环境下面向数据密集型应用的数据布局策略与方法［Ｊ］．计算机学报，

２０１０，３３（８）：１４７２—１４８１．

ＺｈｅｎｇＰａｌ，ＣｕｉＬｉ—ｚｈｅｎ，ＷａｎｇＨａｌ—ｙａｎｇ，ｅｔａ１．Ａｄａｔａ

ｐｌａｃｅｍｅｎｔ

ｓｔｒａｔｅｇｙ

ｆｏｒ

ｄａｔａ—ｉｎｔｅｎｓｉｖｅ

ａｐｐｌｉｃａｔｉｏｎｓ

ｉｎ

ｃｌｏｕｄ［Ｊ］．Ｃｈｉｎｅｓｅ

Ｊｏｕｒｎａｌｏｆ

Ｃｏｍｐｕｔｅｒｓ，２０１０，３３（８）：

１４７２．１４８１．

ＢｏｒｔｈａｋｕｒＤ．ＴｈｅＨａｄｏｏｐｄｉｓｔｒｉｂｕｔｅｄｆｉｌｅｓｙｓｔｅｍ：ａｒｃｈｉ—

ｌｅｃｔｕｒｅ

ａｎｄ

ｄｅｓｉｇｎ！ＥＢ／ＯＬ］．［２０１２—０１—０３］．ｈｎｐ：／／

ｈａｄｏｏｐ．ａｐａｃｈｅ．ｏｒｇ／ｃｏｍｍｏｎ／ｄｏｅｓ／ｓｔａｂｌｅ／ｈｄｆｓ—．ｄｅｓｉｇｎ．

ｈｔｍｌ．

ＪｉｎｇＳｉｙｕａｎ，ＳｈｅＫｕｎ．Ａｎｏｖｅｌｍｏｄｅｌｆｏｒｌｏａｄｂａｌａｎｃｉｎｇ

ｉｎｃｌｏｕｄｄａｔａ

ｃｅｎｔｅｒ［Ｊ］．Ｊｏｕｒｎａｌ

ｏｆＣｏｎｖｅｒｇｅｎｃｅＩｎｆｏｒ—

ｍａｔｉｏｎ

Ｔｅｃｈｎｏｌｏｇｙ，２０１１，６（４）：１７１—１７９．

ＬｉｕＹａｎｇ，ＬｉＭａｏｚｈｅｎ，ＡｌｈａｍＮａｓｕｌｌａｈＫｈａｌｉｄ，ｅｔａ１．

ＬｏａｄｂａｌａｎｃｉｎｇｉｎＭａｐＲｅｄｕｃｅｅｎｖｉｒｏｎｍｅｎｔｓｆｏｒｄａｔａｉｎ—

ｔｅｎｓｉｖｅ

ａｐｐｌｉｃａｔｉｏｎｓ［Ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓ

ｏｆｔｈｅＥｉｇｈｔｈＩｎ—

ｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ

ｏｎ

ＦｕｚｚｙＳｙｓｔｅｍｓａｎｄＫｎｏｗｌｅｄｇｅ

Ｄｉｓｃｏｖｅｒｙ．Ｓｈａｎｇｈａｉ：ＩＥＥＥ，２０１１：２６７５—２６７８．

ＨａｄｏｏｐＤａｔａＬｏａｄＢａｌａｎｃｉｎｇ

Ｍｅｔｈｏｄ

Ｂａｓｅｄ

ｏｎ

ＤｙｎａｍｉｃＢａｎｄｗｉｄｔｈ

Ａｌｌｏｃａｔｉｏｎ

ＬｉｎＷｅｉ一加反１

￡ｉ“Ｂ０２

（１．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＥｎｇｉｎｅｅｒｉｎｇ，ＳｏｕｔｈＣｈｉｎａ

ＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，Ｇｕａｎｇｚｈｏｕ５１０００６，Ｇｕａｎｇｄｏｎｇ，Ｃｈｉｎａ；

２．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，ＳｏｕｔｈＣｈｉｎａＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，Ｇｕａｎｇｚｈｏｕ

５１０６３１，Ｇｕａｎｇｄｏｎｇ，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：ＤａｔａｌｏａｄｂａｌａｎｃｉｎｇｇｒｅａｔｌｙａｆｆｅｃｔｓｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆｔｈｅＨａｄｏｏｐｄｉｓｔｒｉｂｕｔｅｄｆｉｌｅ

ｓｙｓｔｅｍ（ＨＤＦＳ）．Ｉｎ

ｏｒｄｅｒ

ｔｏ

ｏｖｅｒｃｏｍｅｔｈｅｉｎｅｆｆｉｃｉｅｎｃｙａｎｄｉｎｆｌｅｘｉｂｉｌｉｔｙｏｆｔｈｅｄｅｆａｕｌｔｄａｔａｌｏａｄｂａｌａｎｃｉｎｇｍｅｔｈｏｄｉｎＨＤＦＳ，ｔｈｉｓｐａｐｅｒ

ｄｅｖｉｓｅｓ

ａ

ｎｏｖｅｌｄｙｎａｍｉｃｌｏａｄｂａｌａｎｃｉｎｇｍｅｔｈｏｄ，ｗｈｉｃｈｄｙｎａｍｉｃａｌｌｙａｌｌｏｃａｔｅｓｎｅｔｗｏｒｋｂａｎｄｗｉｄｔｈ

ｔｏ

ａｃｈｉｅｖｅｔｈｅｄａｔａ

ｌｏａｄｂａｌａｎｃｉｎｇｂｙｃｏｎｔｒｏｌｌｉｎｇｖａｒｉａｂｌｅｓ．Ｔｈｅｎ，ｔｈｅｃｏｒｒｅｓｐｏｎｄｉｎｇｍａｔｈｅｍａｔｉｃａｌｍｏｄｅｌｉｓｃｏｎｓｔｒｕｃｔｅｄｂａｓｅｄｏｎ

ｔｈｅ

ｃｏｎｔｒｏｌｌｅｄｖａｒｉａｂｌｅｓ．Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅｄｅｖｉｓｅｄｍｅｔｈｏｄｃａｎ

ｎｏｔ

ｏｎｌｙｇｕａｒａｎｔｅｅｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆ

ｔｈｅＨＤＦＳｄａｔａ

ａｃｃｅｓｓ

ｓｙｓｔｅｍｂｕｔａｌｓｏｉｍｐｒｏｖｅｔｈｅｄａｔａｌｏａｄｂａｌａｎｃｉｎｇｅｆｆｉｃｉｅｎｃｙｉｎｔｈｅｐｒｅｓｅｎｃｅｏｆ

ａ

ｎｅｗ

ｃｌｕｓｔｅｒ

ｎｎｄｅ．

Ｋｅｙｗｏｒｄｓ：Ｈａｄｏｏｐ；ｌｏａｄｂａｌａｎｃｉｎｇ；ｂａｎｄｗｉｄｔｈ

１Ｊ

１ｊ

１＿１Ｊ１Ｊｍ¨挖ｎ

ＨＨｒＬ

ｒｌＬ

ｒＬ

ｒＬｒ

ＪＬ

ｒＬ万方数据

基于动态带宽分配的Hadoop数据负载均衡方法

作者：林伟伟，刘波， Lin Wei-wei， Liu Bo

作者单位：林伟伟,Lin Wei-wei(华南理工大学计算机科学与工程学院,广东广州,510006)，刘波,Liu Bo(华南师范大学计算机学院,广东广州,510631)刊名：

华南理工大学学报（自然科学版）

英文刊名：Journal of South China University of Technology(Natural Science Edition)

年，卷(期)：2012,40(9)

被引用次数：1次

参考文献(15条)

1.Apache Hadoop 2012

2.林伟伟一种Hadoop数据放置的优化策略[期刊论文]-华南理工大学学报(自然科学版) 2012(01)

3.Prashant S;Kamalakar K A multi-agent simulation framework on small Hadoop cluster 2011(07)

4.Qiu Zhi;Lin Zhao-wen;Ma Yan Research of Hadoopbased data flow management system 2011(02)

5.Ye Xianglong;Huang Mengxing;Zhu Donghai A novel blocks placement strategy for Hadoop 2012

6.Sadasivam G S;Selvaraj D A novel parallel hybrid PSOGA using MapReduce to schedule jobs in Hadoop data grids 2010

7.Dean J;Ghemawat S MapReduce:simplified data processing on large clusters[外文期刊] 2008(01)

8.Ghemawat S;Gogioff H;Leung P T The google file system 2003

9.Jeremy Z Yahoo!Launches world's largest Hadoop production application 2012

10.Loughran Steve Applications powered by Hadoop 2012

11.Amazon Amazon elastic compute cloud 2012

12.郑湃;崔立真;王海洋云计算环境下面向数据密集型应用的数据布局策略与方法[期刊论文]-计算机学报 2010(08)

13.Borthakur D The Hadoop distributed file system:architecture and design 2012

14.Jing Siyuan;She Kun A novel model for load balancing in cloud data center 2011(04)

15.Liu Yang;Li Maozhen;Alham Nasullah Khalid Load balancing in MapReduce environments for data intensive applications 2011

引证文献(1条)

1.刘琨.钮文良一种改进的Hadoop数据负载均衡算法[期刊论文]-河南理工大学学报（自然科学版） 2013(3)

本文链接：https://www.sodocs.net/doc/322535995.html,/Periodical_hnlgdxxb201209008.aspx

基于动态带宽分配的Hadoop数据负载均衡方法

相关文档

最新文档