搜档网
当前位置:搜档网 › 大数据的存储和处理研究

大数据的存储和处理研究

目录

目 录

1 绪论 (1)

1.1 课题研究背景和意义 (1)

1.2 大数据研究现状 (2)

1.2.1国内外学术界大数据研究现状 (2)

1.2.2 Hadoop在商业上的应用 (3)

1.2.3关联规则的研究现状 (4)

1.3 本文的主要工作 (6)

1.4 本文的研究内容及章节安排 (6)

1.5 本章小节 (7)

2 HDFS分布式文件系统 (9)

2.1 HDFS的特点 (9)

2.2 HDFS的结构 (10)

2.3 HDFS的相关概念 (11)

2.3.1机架 (11)

2.3.2数据块 (11)

2.3.3 NameNode节点 (11)

2.3.4 DataNode节点 (12)

2.3.5编辑日志 (12)

2.2.6文件系统镜像 (12)

2.2.7 Secondary NameNode节点 (13)

2.4 数据流 (14)

2.4.1文件的读取 (14)

2.4.2文件的写入 (15)

2.5 实验一 (17)

2.6 本章小结 (21)

3 MapReduce编程模型 (23)

3.1 MapReduce的特点 (23)

3.2 MapReduce的结构 (23)

3.3 MapReduce运行机制 (25)

3.3.1 作业的提交 (26)

3.3.2 作业的初始化 (27)

3.3.3 任务的分配 (27)

3.3.4 任务的执行 (27)

3.3.5 进度和状态的更新 (28)

3.3.6 作业的完成 (28)

3.4 MapReduce容错 (28)

3.4.1任务失败 (28)

3.4.2 TaskTracker失败 (28)

3.4.3 JobTracker失败 (29)

3.5 任务的执行机制 (29)

3.5.1 推测执行 (29)

3.5.2 任务JVM重用 (30)

3.5.3 跳过坏的记录 (30)

3.6 作业调度器 (30)

i

西安理工大学工程硕士专业学位论文

ii

3.6.1 先进先出调度器 (30)

3.6.2 公平调度器 (31)

3.6.3 容量调度器 (31)

3.7 本章小结 (31)

4 Apriori算法 (33)

4.1关联规则的相关概念 (33)

4.2算法简介 (34)

4.3算法实例分析 (35)

4.4算法性能分析 (37)

4.5本章小结 (38)

5基于MapReduce的Apriori改进算法 (39)

5.1算法的思想 (39)

5.2算法的设计 (39)

5.3算法实例分析 (40)

5.4算法性能分析 (42)

5.5实验平台的搭建 (42)

5.5.1 Hadoop伪分布式安装 (42)

5.5.2 Hadoop分布式安装 (46)

5.5.3 MapReduce程序开发环境的搭建 (49)

5.6实验二 (52)

5.7本章小结 (55)

6 总结与展望 (57)

6.1总结 (57)

6.2展望 (58)

致谢 (59)

参考文献 (61)

绪论

1 绪论

21世纪的今天,互联网技术迅猛发展大数据、云计算和物联网已经成为了三个最热门的IT技术领域【1-4】。随着“大数据”时代的到来,对大数据本身的处理和分析越来越为生产者和商业人士所看重。但问题在于,相比于拥有较长历史的数据库分析和传统数据挖掘算法,大数据分析具有数据量特别巨大、算法分析特别复杂等特点。

1.1 课题研究背景和意义

互联网已经成为了人们生活中的一部分,人们的工作和生活已经离不开网络了。从前人们通过书籍、报纸、广播和电视等来获取消息和知识,而今天互联网技术的成熟,人们获取信息的渠道不再局限于这些传统的媒介上了,人们可以利用手机或者电脑等电子设备通过在互联网上浏览网页就能随时随地获取世界各地最新的新闻、想要阅读的书籍和想观看的视频等,并且作到了足不出户就能在网上购物,而不必再去实体店挑选商品。这样一来为人们节省了很多宝贵的时间,加快了人们的生活节奏。然而,互联网技术的高速发展导致数据爆炸式地增长,如何存储和处理这些数据是人们面临的一个重大挑战【5】。例如,纽约证券交易所每天产生1TB的交易数据,百度每天处理的数据量可以达到几千TB【6】。面对数据类型不同的海量数据,如何高效和快速地挖掘出有价值的信息,并帮助企业决策者作出决策是我们所关注的重点问题。对我们来讲“大数据”时代的到来可以说是一个挑战,同时也是一个机遇,谁能把握好这次机会将会成为“大数据”时代的赢家。

云计算是将分布式计算、网格计算和并行计算联系在一起对存储在多台计算机中的海量数据进行处理和分析,从而利用计算机集群的威力为用户提供高效的服务。用户可以根据自己的需求通过客户端登陆到服务器快速地获取服务器上的资源。随着云技术不断地发展人们逐渐地转变了数据的存储方式,将原本存储在自己计算机上的本地数据移动到了云集群中保存,这种新的存储方式将成为未来数据存储的方向【7-8】。在云集群上存储的数据由云集群自动管理不易产生数据丢失的问题,相比存储在个人计算机中的数据更安全【9】。随着硬件被做的越来越小,功能越来越成熟,制作的成本也越来越低,便携式客户端替代个人电脑的时代已经开始了。未来企业可以将公司内的所有数据交给云集群统一管理和控制,帮助企业提高智能商务和大数据分析,从而真正实现企业的智能信息化。

关联规则挖掘可以说是数据挖掘中最成熟、最主要、最活跃的研究内容之一,其目的是为了找出数据库中不同项之间存在的某种关系,它的核心问题是如何获取频繁项集。美国沃尔玛公司通过使用关联规则挖掘对顾客的购物清单进行分析,发现了尿布和啤酒之间的联系,将尿布和啤酒两种商品摆放在同一片区域进而方便顾客购买,这个案例就是数据挖掘中家喻户晓的“啤酒—尿布”案例。Apriori 算法作为关联规则挖掘算法中的核心算法,其后的很多算法都是在Apriori算法的基础上进行改进并提高算法效率,它通过对数据库的多次扫描来发现所有的频繁项集【10-13】。但面对海量数据的情况下,多次扫描数据库会耗费大量的时间和I/O资源,所以使用并行计算思想将串行算法并行化成为近年来的一

1

相关主题