搜档网
当前位置:搜档网 › 大数据研究综述

大数据研究综述

大数据研究综述
大数据研究综述

大数据文献综述

随着以博客、社交网络、基于位置的服务LBS为代表的新型信息发布方式的不断涌现,以及云计算、物联网等技术的兴起,数据正以前所未有的速度在不断地增长和累积,国际数据公司( IDC) 的数字宇宙研究报告称[1]:2011 年全球被创建和被复制的数据总量超过1. 8ZB,且增长趋势遵循新摩尔定律( 全球数据量大约每两年翻一番) ,预计 2020 年将达到 35ZB.与此同时,数据复杂性也急剧增长,其多样性、低价值密度、实时性等复杂特征日益显著,大数据时代已经来到。学术界、产业界甚至于政府机构都已经开始密切关注大数据问题,并对其产生浓厚的兴趣。

一、大数据国内外发展现状

对于学术界,1989 年在美国底特律召开的第 11 届国际人工智能联合会议专题讨论会上,首次提出了“数据库中的知识发现(KDD)”的概念。在1995年召开了第一届知识发现与数据挖掘国际会议,随着与会人员的增加,KDD国际学术成为年会。大数据的兴起,主要是国际顶尖期刊《Nature》早在2008年推出了Big data专刊[2]。计算社区联盟(computing community consortium ) 在2008年发表了报告“big data computing:creating revolutionary breakthroughs in commerce, science and society ”[3],阐述了在数据驱动的研究背景下,解决大数据问题所需的技术以及面临的一些挑战。《science》在2011年2月推出专刊“dealing with data ”[4],主要围绕着科学研究中大数据的问题展开讨论,说明大数据对于科学研究的重要性.美国一些知名的数据管理领域的专家学者则从专业的研究角度出发,联合发布了一份白皮书《challenges and opportunities with big data》[5]。该白皮书从学术的角度出发介绍了大数据的产生,分析了大数据的处理流程,并提出大数据所面临的若干挑战。全球知名的咨询公司麦肯锡(McKinsey )2011年6月份发布了一份关于大数据的详尽报告“big data :the next frontier for innovation , competiton,and productivity”[6],对大数据的影响、关键技术和应用领域等都进行了详尽的分析。进入2012年以来,大数据的关注度与日俱增1月份的达沃斯世界经济论坛上,大数据是主题之一,该次会议还特别针对大数据发布了报告“big data,big compat :new possibilities for international development”[7],探讨了新的数据产生方式下,如何更好地利用数据来产生良好的社会效益.该报告重点关注了个人产生的移动数据与其他数据的融合与利用.3月份美国奥巴马政府发布了“大数据研究和发展倡议”[8](big data research and development initiative),投资2亿以上美元,正式启动“大数据发展计划”.计划在科学研究、环境、生物医学等领域利用大数据技术进行突破.奥巴马政府的这一计划被视为美国政府继信息高速公路计划之后在信息科学领域的又一重大举措.与此同时,联合国一个名为“global pulse ”的倡议项目在今年5月发布报告“big data for development :challenges or opportunities”[9],该报告主要阐述大数据时代各国特别是发展中国家在面临数据洪流(data deluge)的情况下所遇到的机遇与挑战,同时还对大数据的应用进行了初步的解读.《纽约时报》的文章“the age of big data ”[10]。则通过主流媒体的宣传使普通民众开始意识到大数据的存在,以及大数据对于人们日常生活的影响。

在产业界,经济利益成为主要的推动力,IBM、ORACLE、微软、谷歌、亚马逊、Facebook、Teradata、EMC、惠普等跨国巨头也因大数据技术的发展而更加具有竞争力[11]。仅2009 年一年,谷歌公司通过大数据业务对美国经济贡献540 亿

美元;2005 年以来,IBM 投资160 亿美元进行30 多次与大数据相关的收购,使业绩稳定高速增长,2012 年,IBM 股价每股突破200 美元大关,3 年内翻了3 番;eBay 通过数据挖掘精确计算出广告中每个关键字带来的回报,2007 年以来,广告费降低了99%,同时顶级卖家占总销售额的百分比上升至32%;2011 年,Facebook 首次公开新数据处理分析平台PUMA,通过对数据多处理环节区分优化,相比之前单纯采用Hadoop 和Hive 进行处理的技术,数据分析周期从2 天降到10 秒以内,效率提高数万倍。

与国外相比,我国大数据的发展还稍落后。我国国家自然科学基金于1993 年首次支持对数据挖掘领域的研究项目。1999 年,在北京召开第三届亚太地区

知识发现与数据挖掘国际会议(PAKDD),收到论文158 篇。2011 年,第十五届PAKDD 在深圳举办,会议就数据挖掘、知识发现、人工智能、机器学习等相关领域的主题进行交流讨论,反响热烈。2012 年5 月,香山科学会议组织了以

“大数据科学与工程——一门新兴的交叉学科?”为主题的第424 次学术讨论会,来自国内外35 个单位横跨IT、经济、管理、社会、生物等多个不同学科领域的43 位专家代表参会,并就大数据的理论与工程技术研究、应用方向以及大数据研究的组织方式与资源支持形式等重要问题进行了深入讨论。6 月,中国计算机学会青年计算机科技论坛(CCF YOCSEF)举办了“大数据时代,智谋未来”学术报告会,决定成立大数据专家委员会,就大数据时代的数据挖掘、体系架构理论、大数据安全、大数据平台开发与大数据现实案例进行了全面的讨论。 2012 年10月,成立了首个专门研究大数据应用和发展的学术咨询组织--中国通信学会大数据专家委员会,推动了我国大数据的科研与发展。2012 年11 月,“Hadoo p 与大数据技术大会”以“大数据共享与开放技术”为主题,总结了八个热点问题:数据科学与大数据的学科边界、数据计算的基本模式与范式、大数据的作用力和变换反对、大数据特性与数据态、大数据安全和隐私问题、大数据对IT 技术架构的挑战、大数据的生态环境问题以及大数据的应用及产业链。大会还成立了“大数据共享联盟”,旨在搜集大数据、展示大数据、促进大数据的研究与开发。

在产业界,国内主要以百度、腾讯、华为、淘宝、中国移动等企业为首的大数据布局与商业活动。百度作为中国最大的搜索引擎,在中国和中文互联网领域各项排行中不是最大就是最多。2012年,百度日均抓取约10亿网页,处理超过100PB(1PB=1024TB)的数据。过去10年,百度网页搜索库已从500万猛增到了500亿个页面。从公开的材料看,百度的大数据战略往往与云计算绑定在一起,强调大数据储存与处理能力。2011年8月,百度宣布将用三年的时间建立一个全国最大的数据中心,并且主打“绿色”。通过对大数据流量的把握,百度经过设计,降低设备能耗、减少服务器、日间侧重商业业务、夜间侧重数据业务,从而让“百度的单体十万台服务器的数据中心,PUE每降低0.1,一年就可为百度节省上千万元的成本。”腾讯自称“目前中国最大的互联网综合服务提供商之一,也是中国服务用户最多的互联网企业之一”,拥有超过7.52亿QQ 即时通讯活跃账户,1亿微信用户、4.25亿微博用户和超过1亿的视频用户。在积累了个人用户多方面的海量数据后,2012年腾讯提出了“大数据营销”的概念。腾讯网总编辑陈菊红表示“将从这些海量数据中挖掘、分辨出用户的行为模式、兴趣偏好等,打造专属于每个人的智慧门户。” 腾讯不仅在各大产品线中都设置了数据挖掘团队,还在和一些第三方数据挖掘公司、营销公司展开合作洽谈,充分挖掘用户在网上的行为、关系、UGC(用户产生的内容)等数据,“通过合理的方法找到对企业有

帮助的数据,并且将营销预算合理的分配在为数众多的数据来源平台上”,从而提高营销效率。2011年4月腾讯追加在天津的数据中心建设投资,欲建立亚洲最大的数据储备处理中心。相比中国用户最多的两家互联网企业,淘宝在大数据方面的举措丝毫不逊色,因为几乎所有淘宝业务都依赖淘宝数据库。每天大约有6000万用户登录淘宝网,约20亿页面浏览量(PV)。淘宝所使用的OceanBase分布式数据库,在基准数据和增量数据基础上,实现不同部门对数千亿条记录、数百TB数据上的跨行跨表事务共同完成,并支持每天4000~5000万的更新操作。早在2009年淘宝便自建大型数据库,并通过对全国淘宝购买数据的挖掘发布了2011年淘宝中国地图,对其掌握的大量用户交易数据进行了形象的展示。在利用大数据为提高用户购物体验的旗号下,淘宝根据长尾原理充分利用大数据挖掘技术,建设开放平台,提供各种增值服务。中国移动作为中国最大的移动通讯运营商,截至2012年4月底,中国移动用户数已经达到6.7亿。同时,中国移动正在谋求从移动运营商的管道角色向客户端制造和云端服务两个方向发展。而大数据业务的投入,为此提供了机遇。2011年第四季度中国移动先后与内蒙古自治区和黑龙江省签署合作协议,在呼和浩特、哈尔滨建设全国规模最大、技术最先进、能耗最低定在成都建立西部最大数据中心,完成了其在国内数据中心的三大数据基地布局。

通过对国内外学术期刊SCI与SSCI检索研究中发现,目前国外对大数据的研究主要集中在如何进行大数据的存储、处理、分析以及管理的技术及软件的应用上,而关于大数据与管理科学的结合几乎很少,国内学者对大数据的研究主要集中大数据的商业模式的探讨、大数据分析处理技术、大数据的应用领域等,而对关于大数据与云计算结合的研究几乎处于理论摸索阶段。

二、大数据的国内外研究综述

对于大数据的定义,学术界和产业界目前尚未形成公认的准确定义。维基百科的定义[12]:大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策目的的信息。麦肯锡的定义[13]:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。权威 IT 研究将大数据定义为“在一个或多个维度上超出传统信息技术的处理能力的极端信息管理和处理问题”[14]。美国国家科学基金会( NSF) 则将大数据定义为“由科学仪器、传感设备、互联网交易、电子邮件、音视频软件、网络点击流等多种数据源生成的大规模、多元化、复杂、长期的分布式数据集”[15]。研究机构 Gartner 的定义:大数据是指需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

无论是哪一种定义,我们可以看出,均体现了大数据具有的四种特性:数据体量巨大(Volume)、数据种类繁多(Varity)、流动速度快(Velocity)、价值密度低(Value)。其实,对于大数据的4V特征其不仅仅是海量数据,更追求的是实时性、动态性、全貌性。

1. 关于大数据的商业模式方面的研究

“假如我们有了一个数据预报台,就像为企业装上了一个 GPS 和雷达,企业的出海将会更有把握。”马云在 2012 年网商大会上的演讲中形象地表示了数据的重要性。在麦肯锡发布《大数据:创新、竞争和生产力的下一个前沿领域》报告之后,大数据的商业价值迅速受到银行、零售等行业的关注。如今,银行业中的实时欺诈监测和风险管理、电信业的客户细分和业务波动分析、医疗业中的

疾病诊断和分析、零售业的价格优化和购买分析等已经开始应用大数据分析的结果,大数据已经开始创造着价值。目前从管理学的角度应用大数据技术以支持商业分析和决策,已经成为商学院教育的热点方向。

国家自然科学基金委员冯芷艳从商务管理在大数据背景下所面临的时代挑战出发,给出了社会化的价值创造、网络化的企业运作、实时化的市场洞察三个重要研究视角。同时,描述了社会化网络环境中的行为机理与社会资本结构、企业网络生态系统及其协同共生机制、大数据环境下的顾客洞察与市场营销策略、基于大数据的商业模式创新等研究方向[16]。此外国内学者陈晓霞对大数据业务的商业模式进行了探讨,通过对大数据产业链自底向下的三层构成提出了基于大数据的六种商业模式[17],(第一层是企业内部交易数据和企业外部的用户行为数据、物联网数据等,这一层次的主要任务是数据的采集、存储和传输等工作;第二层次是信息层,去粗取精,提炼后形成价值密度更高的信息,这一层可以产生诸如数据包销售、租赁等业务模式,也会诞生一批靠搜集各类数据为主业的公司,如区域数据提供商;第三个层次是知识层,对于知识的利用需要人工介入以外,主要还需要融合行业信息。)主要包括租售数据模式、租售信息模式、数字媒体模式、数据使能模式、数据空间出租模式、大数据技术提供商模式。

就产业界而言,腾云天下数据挖掘总监张夏天虽然大数据目前在国内还处于初级阶段,但是商业价值已经显现出来。首先,手中握有数据的公司如同站在金矿上,基于数据交易即可产生很好的效益;其次,基于数据挖掘会有很多商业模式诞生,定位角度不同,或侧重数据分析。比如帮企业做内部数据挖掘,或侧重优化,帮企业更精准找到用户,降低营销成本,提高企业销售率,增加利润。百分点的联合创始人苏萌表示,未来,数据可能成为最大的交易商品。大数据的价值是通过数据共享、交叉复用后获取最大的数据价值。在他看来,未来大数据将会如基础设施一样,有数据提供方、管理者、监管者,数据的交叉复用将大数据变成一大产业。目前,百分点所做的就是通过分析用户在网络上的消费行为数据,帮助电商企业实现“千人千面”精准营销。据了解,作为全球最大的中文搜索引擎,百度已经覆盖 5亿中国网民,拥有千亿级用户行为数据,在分析消费者行为与对接企业营销阶段需求方面,已经构建起相对完善的商业产品布局和蓝图。

2.关于大数据分析处理的研究

基于社交网络、移动互联、电子商务、物联网等诸多应用领域,数据量正在以极快的速度增长,包括结构化的、半结构化的和非结构化的数据, 其规模或复杂程度超出了常用传统数据库和软件技术所能管理和处理的数据集范围大数据广泛存在,如企业数据、统计数据、科学数据、医疗数据、互联网数据、移动数据、物联网数据,等等,并且各行各业都可得益于大数据的应用按其应用类型,可将大数据分为海量交易数据(企业OLTP 应用)、海量交互数据(社网、传感器、GPS、Web 信息)和海量处理数据(企业OLAP 应用)这3类为了分析和利用这些庞大的数据资源,必须依赖有效的数据分析技术和数据管理系统。

目前,Hadoop是最为流行的大数据处理平台。Hadoop最先是Doug Ctting 模仿GFS,MapReduce实现的一个云计算开源平台,后贡献给Apache.Hadoop 已经发展成为包括文件系统(HDFS)、数据库(HBase、Cassandra)、数据处理(MapReduce)等功能模块在内的完整生态系统。对Hadoop改进并将其应用于各种场景的大数据处理已经成为新的研究热点。主要的研究成果集中在对Hadoop平台性能的改进、高效的查询处理、索引构建和使用、在Hadoop之上构建数据仓库、Hadoop 和数据库系统的连接、数据挖掘、推荐系统等。国内学者王珊、王会举等人通过

提出了大数据分析平台应具备的特性(高度可扩展性、高性能、高度容错性、支持异构环境、较低的分析延迟等特性),分析了并行数据库、MapReduce技术、并行数据库和MapReduce技术的混合架构优势及不足。该团队提出了另一种思路,从数据的组织和查询的执行两个核心层次入手,融合关系数据库和MapReduce两种技术,设计高性能的可扩展的抽象数据仓库查询处理框架.该框架在支持高度可扩展的同时,又具有关系数据库的性能[18]。团队尝试过两个研究方向:(1)借鉴MapReduce的思想,使OLAP查询的处理能像MapReduce一样高度可扩(LinearDB原型);(2)利用关系数据库的技术,使MapReduce在处理OLAP查询时,逼近关系数据库的性能(Dumbo原型)。周傲英等人提出基于 MapReduce 的列存储数据的连接优化方法,极大地加快了连接的速度[19].除此之外,NoSQL是目前云环境下支持海量数据管理的新模式,NoSQL是指那些非关系型的、分布式的、不保证遵循ACID 原则的数据存储系统。典型的NoSQL产品有Google 的BigTable[20]、基于Hadoop HDFS[21]的HBase[22]、Amazon 的Dynamo[23]等。国内学者申德荣等人提出了基于key-value 数据模型的NoSQL 数据管理系统,解决了传统数据管理系统不具有的可扩展性、弹性、容错性等问题,提高了海量数据管理的效率[24]。

国外学者Dittrich J等人,研究了非侵入式的MapReduce 性能提升技术,包括特洛伊索引(Trojan index)和分区数据并置co-partition,即把需要连接的数据分区保存到同一个节点或者在网络拓扑上接近的节点,以加快数据分区之间的

Join 操作)技术等[25]。Iu MY 等人通过对 MapReduce 执行函数的分析,对MapReduce 查询进行改写,充分利用 SQL 数据库的索引、聚集函数等功能,提高MapReduce 函数的执行效率[26]。研究了 MapReduce 架构下面向日志处理的连接操作的性能,在 100 个节点组成的 Hadoop 集群上进行若干连接技术的性能研究,包括标准的重新分区连接方法(standard repartition join)、改进的重新分区连接方法(improved repartition join)、直接连接方法(directedjoin)、广播连接方法(broadcast join)、半连接(semi-join)、基于分片的半连接

(per-split semi-join)等,为不同应用场景下使用不同的连接技术提供了参考在产业界,大数据在美国也是很前沿的技术,Opera Solutionss公司2008年转向大数据服务,目前是典型的大数据融合服务性公司,他本身不拥有数据,通过购买或者搜集用户的行为信息为客户的商业决策提供精准的信息,并协助客户设计新产品。SAS公司是全球商业智能和分析软件与服务领袖。全球50000多家企业都在通过SAS软件对数据进行深入挖掘,帮助企业更快、更准确地进行业务决策。SAS在综合的企业智能平台内提供一流的数据整合、存储、分析和商业智能应用。国内企业在大数据处理技术上呈现良好势头,主要以华为、阿里巴巴、百度为首。华为提供了基于x86 服务器的SmartVision 大数据处理解决方案[11],催生数据基础架构的革新,。在“2012 华为云计算大会”上,推出了OceanStor MVX 大数据存储解决方案[12],存储系统是融合了Scale-out NAS、Scale-out Database 和Scale-out Backup,实现存储、分析、备份多位一体,面向大数据存储的集群存储系统。

3、关于大数据的应用领域

2012年6~9月份的时候,IBM公商业价值研究院和牛津大学赛德商学院联合开展研究,针对大数据的应用,对全球95个国家、26个行业、1144名企业高管和专业人士做了调研。结果显示,在全球各行各业中,企业高管都意识到自身需要更多地了解大数据、使用大数据。提到大数据的应用,首先必须提到的就是阿里巴巴的金融微贷业务,阿里金融拿到金融执照短短几年时间,到2012年6月份其

微贷企业已经达到12.9万家企业,贷款总额260亿万元,到2012年年底其服务的微小企业已经超过20万家。阿里金融利用网上的客户信用数据与行为数据,建立网络数据模型及信用体系。借此给每一个商铺、每一个店家做信用等级的评分,根据这个评分阿里金融去发放微贷,从500块钱到100万不等,并开发了很多业务产品,包括订单贷款、信用贷款等等。阿里金融打破了银行的传统做法,不需要抵押,不需要担保,只依赖于大数据,通过大数据应用和业务创新,改变了一个行业,改变了游戏规则。大数据目前在全球已经用于各行各业,主要包括金融服务业、银行业、计算机行业、国内外的咨询公司、电商企业、零售业等等。下面主要从四个方面阐述大数据在不同行业较成功的应用。

一是从传感器、网络日志、网上点击流实时采集下来,制定一些业务规则,实时满足业务规则的东西摘录出来,实时判断。比如某人在一天中打通了20个电话,但不到2分钟就挂断了,这个电话可能是欺诈电话,这就是业务规则,当下一个电话的数据流发生时,就会自动判断,这个是一个异常的话单,是一个欺诈的单位,这在电信企业中已经应用了。银行也一样,开展了信用卡的实时监测。另外一种手段是内容计算。传统处理都是数据库表格的方式,而现在要处理内容。一是社交媒体跟舆情的分析。首先,从微博、社交媒体中把需要的文档、文章,通过爬虫从网上爬下来,放在非结构化的数据平台中,对内容进行分词、句法分析、情感分析,同时做一些关系实体的识别,通过这些内容、关系分析企业声誉度、品牌、服务质量,跟踪产品评价和市场动态,做企业层面舆情的监控。

二是利用360度全景客户视图开展营销、销售。传统的客户视图基于客户在本企业的交易数据,但是新的技术手段出现后,很多企业考虑全景的客户视图,除了企业本身的交易数据以外,把客户在社交网络上、媒体、交互数据上的一些信息集成起来,和原来传统的数据集中在一起,做全景的客户视图,全面了解客户。目前在银行、电信行业,很多企业都在做这个事情。360度全景视图怎么做?利用外部的社交网络数据,对客户社交网络进行画像,对客户在网络上的信息进行归类,有些是客户的评价讨论,有些是客户的倾向性信息,还有客户情绪的信息、行为的数据,全面整合,对客户进行网络的画像。基于这个画像,企业可以实现微观的客户细分、营销活动管理、信誉风险的评估以及竞争对手的分析。

三是通过大数据开展关联企业、交易对手风险暴露分析和事件监测。将交易所、证监会、银监会、安全部门、公安部门的监管文件,以及新闻、出版物、社交媒体数据爬下来,刻画企业的社交网络图,实时展示企业与外界的联系。

四是客户的信用风险评估。比如花旗银行本身掌握客户的很多交易的数据,同时也会采集客户的一些外部信息,以及交易对手信息、市场信息、新闻评论,并且把这些数据关联起来。当客户贷款时,系统通过模型能自动判断贷款利率(因为美国的利率是浮动的,这个利率会给信贷员提供参考)。这与阿里金融异曲同工。这方面的应用还有很多,比如保险公司获取客户体检的信息以及病历,从而判断客户大概得了什么病,应该用什么药,并把这些结论提供给医生做实时参考。4、大数据与云计算结合的研究

云计算受到学术界和工业界的热捧,随后,大数据横空出世,更是炙手可热,经常有人把大数据和云计算相提并论。大数据与云计算确实有一些相同之处。它们都是为数据存储和处理服务的,都需要占用大量的存储和计算资源,而且大数据用到的海量数据存储技术、海量数据管理技术、MapReduce 等并行处理技术也都是云计算的关键技术。但是,大数据与云计算也有很多方面的差异。云计算的目的是通过互联网更好地调用、扩展和管理计算及存储资源和能力,以节省企业

的IT 部署成本,其处理对象是IT 资源、处理能力和各种应用。云计算从根本上改变了企业的IT 架构,产业发展的主要推动力量是存储及计算设备的生产厂商和拥有计算及存储资源的企业。而大数据的目的是充分挖掘海量数据中的信息,发现数据中的价值,其处理对象是各种数据。大数据使得企业从“业务驱动”转变为“数据驱动”,从而改变了企业的业务架构,其直接受益者不是IT 部门,而是业务部门或企业CEO,产业发展的主要推动力量是从事数据存储与处理的软件厂商和拥有大量数据的企业。学者余从国认为云计算和大数据实际上是工具与用途的关系,即云计算为大数据提供了有力的工具和途径,大数据为云计算提供了很有价值的用武之地[]。大数据若与云计算相结合,将相得益彰,互相都能发挥最大的优势。云计算能为大数据提供强大的存储和计算能力,更加迅速地处理大数据的丰富信息,并更方便地提供服务;而来自大数据的业务需求,能为云计算的落地找到更多更好的实际应用。

评述:大数据是指一般的软件工具难以捕捉、管理和分析的大容量数据,一般以“太字节”为单位,大数据之“大”,并不仅仅在于“容量之大”,更大的意义在于:通过对海量数据的交换、整合和分析,发现新的知识,创造新的价值,带来“大知识”、“大科技”、“大利润”和“大发展”。大数据大数据作为一种重要的战略资产,已经不同程度地渗透到每个行业领域和部门,其深度应用不仅有助于企业经营活动,还有利于推动国民经济发展。目前,关于大数据的存储处理技术研究中有6种数据管理技术普遍被关注,即分布式存储与计算、内存数据库技术、列式数据库技术、云数据库、NoSQL、移动数据库技术。其中分布式存储与计算受关注度最高。

参考文献:

1Gantz J, Reinsel D.2011 Digital Universe Study: Extracting Value from Chaos[M].

IDC Go-to-Market Service,2011.

2Nature. Big Data [EB/OL].

[2012-10-02] .https://www.sodocs.net/doc/48570592.html,/new/special/bigdata/index.html

3Bryant R E, Katz R H, Lazowska E D. Big-Data computing: Creating revolutionary breakthroughs in commerce ,science, and society

[R].[2012-10-02].https://www.sodocs.net/doc/48570592.html,/ccc/docs/init/Big_Data. Pdf

4Scinece. Specical online collection :Dealing with data [EB/OL].

[2012-10-02].https://www.sodocs.net/doc/48570592.html,/site/special/data/,2011

5Agrawal D ,Bernstein P ,Bertino E ,et al. Challenges and opportunities with big data-A community white paper developed by leading researchers across the

United States [R/OL]. [2012-10-02], https://www.sodocs.net/doc/48570592.html,/ccc/docs/init/bigdata

whitepaper.pdf

6Manyika J, Chui M, Brown B, et al. Bid data: The next frontier for innovation, competion, and productivity [R/OL]. [2012-10-02]. http://www. Mckinsey.

com/Insights/MGI/Research/Technology_and_Innovation/Big_data_The_next_fro ntier_for_innovation

7World Economic Forum. Big data ,big impact: New possibilities for international development [R/OL]. [2012-10-02].

http//:https://www.sodocs.net/doc/48570592.html,/docs/WEF_TC_MFS_BigDataBigImpact_Briefing_2012 .pdf

8Big Data Across the Federal Government[EB/OL].[2012-10-02].http://www.white

https://www.sodocs.net/doc/48570592.html,/sites/default/files/microsites/ostp/big_data_fact_sheet_final_1.pdf

9UN Global Pulse. Big Data for Development: Challenges & Opportunities [R/OL].

[2012-10-02].https://www.sodocs.net/doc/48570592.html,/project/BigDataforDevelopment

10Times N Y .The age of big data [EB/OL]. [2012-10-02].

https://www.sodocs.net/doc/48570592.html,/2012/02/12/sunday-review/big-datas-impact-in-the-worl

d.html?pagewanted=all

11李国杰. 大数据研究的科学价值[J]. 中国计算机学会通信,2012,8(9):8-15 12冯芷艳.大数据背景下商务管理研究若干前言课题[J].管理科学学报,2013,16(1):5-6

13陈晓燕.大数据业务的商业模式探讨[J].电子商务,2013,6,16-17

14王珊.架构大数据:挑战、现状与展望[J].计算机学报,2011,10(34),1745-1750

15Zhou MQ, Zhang R, Zeng DD, Qian WN, Zhou AY. Join optimization in the MapReduce environment for column-wise data store.In: Fang YF, Huang ZX, eds. Proc. of the SKG. Ningbo: IEEE Computer Society, 2010. 97 104.

[doi: 10.1109/SKG.2010.18]

16 Dittrich J, Quiane-Ruiz JA, Kargin Y ,Setty V, Schad

J.Hadoop++:Making a yellow elephant run like a cheetah (wiehout it even noticing). PVLDB, 2010,3(1-2):518-529

17 Iu MY, Zwaenepoel W. HodoopToSQL: A MapReduce query optimizer.

国内外大数据产业发展现状与趋势研究

龙源期刊网 https://www.sodocs.net/doc/48570592.html, 国内外大数据产业发展现状与趋势研究 作者:方申国谢楠 来源:《信息化建设》2017年第06期 大数据作为新财富,价值堪比石油。 进入21世纪以来,随着物联网、电子商务、社会化网络的快速发展,数据体量迎来了爆炸式的增长,大数据正在成为世界上最重要的土壤和基础。根据IDC(互联网数据中心)预测,2020年的数据增长量将是2010年的44倍,达到35ZB。世界经济论坛报告称,“大数据为新财富,价值堪比石油”。随着计算机及其存储设备、互联网、云计算等技术的发展,大数据应用领域随之不断丰富。大数据产业将依赖快速聚集的社会资源,在数据和应用驱动的创新下,不断丰富商业模式,构建出多层多样的市场格局,成为引领信息技术产业发展的核心引擎、推动社会进步的重要力量。 大数据产业发展现状 全球大数据产业发展概况 目前,大数据以爆炸式的发展速度迅速蔓延至各行各业。随着各国抢抓战略布局,不断加大扶持力度,全球大数据市场规模保持了高速增长态势。据IDC预测,全球大数据市场规模 年增长率达40%,在2017年将达到530亿美元。美国奥巴马政府于2012年3月宣布投资2亿美元启动“大数据研究和发展计划”,将“大数据研究”上升为国家意志;2015年发布“大数据研究和发展计划”,深入推动大数据技术研发,同时还鼓励产业、大学和研究机构、非盈利机构与政府一起努力,共享大数据提供的机遇。目前,美国大数据产业增长率已超过71%,大数据在美国健康医疗、公共管理、零售业、制造业等领域产生了巨大的经济效益。英国政府自2013年开始就注重对大数据技术的研发投入,2015年投入7300万英镑用于55个政府的大数据应用项目,投资兴办大数据研究中心,通过大数据技术在公开平台上发布了各层级数据资源,直接或间接为英国增加了近490亿至660亿英镑的收入,并预测到2017年,大数据技术可以为英国提供5.8万个新的工作岗位,或将带来2160亿英镑的经济增长。法国2011年推出了公开的数据平台 date.gouv.fr,以便于公民自由查询和下载公共数据;2013年相继发布《数字化路线图》、《法国政府大数据五项支持计划》等,通过为大数据设立原始扶持资金,推动交通、医疗卫生等纵向行业设立大数据旗舰项目,为大数据应用建立良好的生态环境,并积极建设大数据初创企业孵化器。日本在《日本再兴战略》中提出开放数据,将实施数据开放、大数据技术开发与运用作为2013-2020年的重要国家战略之一,积极推动日本政务大数据开放及产业大数据的发展,零售业、道路交通基建、互联网及电信业等行业的大数据应用取得显著效果。韩国政府高度重视大数据发展,科学、通信和未来规划部与国家信息社会局(NIA)共建大数据中心,大力推动全国大数据产业发展。根据《2015韩国数据行业白皮书》统计显示, 数据服务市场规模占韩国总行业市场规模的47%,位列第一;数据库构建服务以41.8%的占有

大数据文献综述

信息资源管理文献综述 题目:大数据背景下的信息资源管理 系别:信息与工程学院 班级:2015级信本1班 姓名: 学号:1506101015 任课教师: 2017年6月 大数据背景下的信息资源管理 摘要:随着网络信息化时代的日益普遍,我们正处在一个数据爆炸性增长的“大数据”时代,在我们的各个方面都产生了深远的影响。大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力就是大数据技术,这也是一个企业所需要必备的技术。“大数据”一词越来越地别提及与使用,我们用它来描述和定义信息爆炸时代产生的海量数据。就拿百度地图来说,我们在享受它带来的便利的同时,无偿的贡献了我们的“行踪”,比如说我们的上班地点,我们的家庭住址,甚至是我们的出行方式他们也可以知道,但我们不得不接受这个现实,我们每个人在互联网进入大数据时代,都将是透明性的存在。各种数据都在迅速膨胀并变大,所以我们需要对这些数据进行有效的管理并加以合理的运用。

关键词:大数据信息资源管理与利用 目录 大数据概念.......................................................... 大数据定义...................................................... 大数据来源...................................................... 传统数据库和大数据的比较........................................ 大数据技术.......................................................... 大数据的存储与管理.............................................. 大数据隐私与安全................................................ 大数据在信息管理层面的应用.......................................... 大数据在宏观信息管理层面的应用.................................. 大数据在中观信息管理层面的应用.................................. 大数据在微观信息管理层面的应用.................................. 大数据背景下我国信息资源管理现状分析................................ 前言:大数据泛指大规模、超大规模的数据集,因可从中挖掘出有价值 的信息而倍受关注,但传统方法无法进行有效分析和处理.《华尔街日

大数据综述

Computer Science and Application 计算机科学与应用, 2018, 8(10), 1503-1509 Published Online October 2018 in Hans. https://www.sodocs.net/doc/48570592.html,/journal/csa https://https://www.sodocs.net/doc/48570592.html,/10.12677/csa.2018.810163 Overview on Big Data Kaiyue Liu China University of Mining & Technology (Beijing), Beijing Received: Oct. 1st, 2018; accepted: Oct. 11th, 2018; published: Oct. 19th, 2018 Abstract As a current popular technical, big data has received wide attention from every industry. In order to further understand big data, this paper comprehensively describes big data from the six aspects: The basics of big data, the origin and development status of big data, big data processing, big data application, big data challenges and the future of big data. The basics of big data include the con-cepts and differences between big data and traditional databases, and the characteristics of big data. The big data processing includes generating and getting data, preprocessing data, data sto-rage, analyzing and mining data. This article is a systematic review of big data, and can establish a good knowledge system for scholars who are new to big data. Keywords Big Data, Data Storage, Data Mining, Data Visualization, Big Data Application 大数据综述 刘凯悦 中国矿业大学(北京),北京 收稿日期:2018年10月1日;录用日期:2018年10月11日;发布日期:2018年10月19日 摘要 大数据作为当今的热点技术,受到了各行各业的广泛关注。为了进一步认识大数据,本文从大数据的基础、大数据的起源和发展现状、大数据的处理流程、大数据的应用、大数据面临的挑战、大数据未来展望六个方面对大数据进行了综合性描述。其中大数据基础包括大数据和传统数据库的概念和区别、大数据的特性,处理流程包括数据生成和获取、数据预处理、数据存储、数据分析挖掘。本文是大数据的系统性综述,可以对初次接触大数据的学者建立了良好的知识体系。

工业大数据分析综述:模型与算法

摘要:随着条形码、二维码、RFID、工业传感器、自动控制系统、工业互联网、ERP、CAD/CAM/CAE等信息技术在工业领域的广泛应用,大量与工业生产活动相关的数据被实时采集并存储到企业的信息系统中。对这些数据进行分析,有助于改进生产工艺、提高生产效率、降低生产成本,为实现智能制造奠定基础。因此,工业大数据分析引起了工业界和学术界的广泛关注。模型和算法是大数据分析理论和技术中的两个核心问题。介绍了工业大数据分析的基本概念,综述了几种流行的工业大数据分析模型在工业大数据分析领域的应用情况以及相应求解算法方面的研究成果,并探索了大数据分析模型和算法的未来研究方向。 关键词:工业大数据; 大数据分析; 模型; 算法; 智能制造 1 引言 当今时代,信息化和工业化的融合已经成为发展趋势,《中国制造2025》指出:“新一代信息技术与制造业深度融合,正在引发影响深远的产业变革,形成新的生产方式、产业形态、商业模式和经济增长点”。工业大数据在两化融合过程中起着至关重要的作用,国务院颁发的《促进大数据发展行动纲要》把发展工业大数据列为主要任务之一:“推动大数据在工业研发设计、生产制造、经营管理、市场营销、售后服务等产品全生命周期、产业链全流程各环节的应用,分析感知用户需求,提升产品附加价值,打造智能工厂。建立面向不同行业、不同环节的工业大数据资源聚合和分析应用平台”。工业大数据是指在工业领域中产生的大数据。随着信息化与工业化的深度融合,信息技术渗透到了工业企业产业链的各个环节,条形码、二维码、射频识别(radio frequency identification,RFID)、工业传感器、工业自动控制系统、工业互联网、企业资源计划(enterprise resource planning,ERP)、计算机辅助设计(computer

大数据文献综述

信息资源管理文献综述题目:大数据背景下的信息资源管理 系别:信息与工程学院 班级:2015级信本1班 姓名: 学号:1506101015 任课教师: 2017年6月

大数据背景下的信息资源管理 摘要:随着网络信息化时代的日益普遍,我们正处在一个数据爆炸性增长的“大数据”时代,在我们的各个方面都产生了深远的影响。大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力就是大数据技术,这也是一个企业所需要必备的技术。“大数据”一词越来越地别提及与使用,我们用它来描述和定义信息爆炸时代产生的海量数据。就拿百度地图来说,我们在享受它带来的便利的同时,无偿的贡献了我们的“行踪”,比如说我们的上班地点,我们的家庭住址,甚至是我们的出行方式他们也可以知道,但我们不得不接受这个现实,我们每个人在互联网进入大数据时代,都将是透明性的存在。各种数据都在迅速膨胀并变大,所以我们需要对这些数据进行有效的管理并加以合理的运用。 关键词:大数据信息资源管理与利用 目录 大数据概念 (3) 大数据定义 (3) 大数据来源 (3) 传统数据库和大数据的比较 (3) 大数据技术 (4) 大数据的存储与管理 (4)

大数据隐私与安全 (5) 大数据在信息管理层面的应用 (6) 大数据在宏观信息管理层面的应用 (6) 大数据在中观信息管理层面的应用 (7) 大数据在微观信息管理层面的应用 (8) 大数据背景下我国信息资源管理现状分析 (9) 前言:大数据泛指大规模、超大规模的数据集,因可从中挖掘出有价值 的信息而倍受关注,但传统方法无法进行有效分析和处理.《华尔街日 报》将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的大技术变革.“世界经济论坛”报告指出大数据为新财富,价值堪比石油.因此,目前世界各国纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要举措. 当前大数据分析者面临的主要问题有:数据日趋庞大,无论是入库和查询,都出现性能瓶颈;用户的应用和分析结果呈整合趋势,对实时性和响应时间要求越来越高;使用的模型越来越复杂,计算量指数级上升;传统技能和处理方法无法应对大数据挑战. 正文:

大数据文献综述

信息资源管理文献综述题目:大数据背景下的信息资源管理系别:信息与工程学院 班级:2015级信本1班 姓名: 学号:1506101015 任课教师: 2017年6月

大数据背景下的信息资源管理 摘要:随着网络信息化时代的日益普遍,我们正处在一个数据爆炸性增长的“大数据”时代,在我们的各个方面都产生了深远的影响。大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力就是大数据技术,这也是一个企业所需要必备的技术。“大数据”一词越来越地别提及与使用,我们用它来描述和定义信息爆炸时代产生的海量数据。就拿百度地图来说,我们在享受它带来的便利的同时,无偿的贡献了我们的“行踪”,比如说我们的上班地点,我们的家庭住址,甚至是我们的出行方式他们也可以知道,但我们不得不接受这个现实,我们每个人在互联网进入大数据时代,都将是透明性的存在。各种数据都在迅速膨胀并变大,所以我们需要对这些数据进行有效的管理并加以合理的运用。 关键词:大数据信息资源管理与利用 目录 大数据概念 (2) 大数据定义 (2) 大数据来源 (2) 传统数据库和大数据的比较 (3) 大数据技术 (3) 大数据的存储与管理 (4) 大数据隐私与安全 (4) 大数据在信息管理层面的应用 (5) 大数据在宏观信息管理层面的应用 (5) 大数据在中观信息管理层面的应用 (6) 大数据在微观信息管理层面的应用 (7) 大数据背景下我国信息资源管理现状分析 (8)

前言:大数据泛指大规模、超大规模的数据集,因可从中挖掘出有价值 的信息而倍受关注,但传统方法无法进行有效分析和处理.《华尔街日 报》将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的 大技术变革.“世界经济论坛”报告指出大数据为新财富,价值堪比 石油.因此,目前世界各国纷纷将开发利用大数据作为夺取新一轮竞 争制高点的重要举措. 当前大数据分析者面临的主要问题有:数据日趋庞大,无论是入 库和查询,都出现性能瓶颈;用户的应用和分析结果呈整合趋势,对 实时性和响应时间要求越来越高;使用的模型越来越复杂,计算量指 数级上升;传统技能和处理方法无法应对大数据挑战. 正文: 大数据概念 大数据定义 维基百科对大数据的定义则简单明了:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。也就是说大数据是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理 大数据来源 1)来自人类活动:人们通过社会网络、互联网、健康、金融、经济、交通等活动过程所产生的各类数据,包括微博、病人医疗记录、文字、图形、视频等

人文社科大数据研究现状综述

人文社科大数据研究现状综述 前言 数据的历史与人类的历史一样久长。步入现代社会以来,伴随信息载体、种类和数量的增多,数据种类越来越丰富,数字、文字、图像、音频、视频等也都是数据。通过数据来研究规律、发现规律,贯穿了人类社会发展的始终。不仅人类自然科学发展史上的不少进步都和数据采集分析直接相关,而且人文社会科学的发展也始终离不开数据。自20世纪后期以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发社会全面变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息总量的变化还导致了信息形态的变化——量变引起了质变。大数据正产生于这一大的历史背景下。 大数据就是囊括了包括各方面信息的一个庞大的数据总和,其最核心的价值在于对海量数据进行存储和分析,并实现预测某一事物发展的趋向。相比起现有的其他技术而言,大数据的廉价、迅速、优化这三方面的综合成本是最低的。大数据最重要的是如何使用,最大的挑战在于哪些领域能更好地使用数据及大数据的应用情况如何。人文社科包含人文科学和社会科学,是一个非常广泛的领域,大数据逐渐成为其研究热点,尤其是在农业、医疗、金融、社会管理等方面得到了很好的应用,为社会的发展提供了很大的帮助。 工业革命以后,以文字为载体的信息量大约每十年翻一番;1970 年以后,信息量大约每三年就翻一番。到如今,全球信息总量每两年就可以翻一番。著名管理咨询公司麦肯锡称:“数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于大数据的挖掘和运用,预示着新一波生产力增长和消费盈余浪潮的到来。”大数据无时无刻都在影响着我们的日常生活、国民经济、社会发展,受到社会各界的关注,如何利用这些海量数据去解决社会生活中的问题,已经成为当前研究的热点。人文社科领域重在研究并阐述各种社会现象及其发展规律,随着现实社会中数据量的剧增,比如社会化媒体,包括微信、微博、网站等,已经渗透到人们生活的各个领域,开放的群体通信和群体互动已经成社会生活的重要组成部分。人文社科领域原有的研究方法已经无法有效地处理这些数据。在过去,人文社科领域的研究常常采取抽样问卷调查、座谈、访谈等方法采集数据。然而,再好、再合理的抽样方法,反映的总是对局部和部分人群、阶层的研究结果,随机偶然性较大,准确性欠佳。如今,大数据处理技术为其提供了新的思想和方法。通过各个平台或网站的并联进行进一步分析,开展思想动态研究、行为方式分析、生活方式探索,发展趋势预测,乃至可以替代传统意义上的问卷调查而进行大规模的数据分析。通过大数据的这些相关技术挖掘社会化数据中隐藏的信息,揭示社会现象并为社会问题提供可靠的解决方案,解决了人文社科领域传统方法无法有效处理的问题。随着大数据研究的发展,大数据在人文社科领域已经有了很多较为典型的应用,特别是在农业、医疗、金融、社会管理等行业。 大数据是知识经济时代的战略高地,是国家和全球的新型战略资源。作为思维的革命性创新,大数据为科学研究带来了新的方法论。习近平总书记在谈到如何繁荣发展中国特色哲学社会科学时,要求我们善于“运用互联网和大数据技术,加强哲学社会科学图书文献、网络、数据库等基础设施和信息化建设”,这为信息化时代的人文社会科学研究的方式变革与理论创新指出了正确的方向。大数据正在成为当前中国社会快速信息化的最重要表征之一。我们应当深刻认识大数据及其对人文社会科学研究所

大数据的国内外研究现状与发展动态分析报告

大数据的国内外研究现状及发展动态分析大数据的概念 产生的背景与意义 上世纪60年代到80年代早期,企业在大型机上部署财务、银行等关键应用系统,存储 介质包括磁盘、磁带、光盘等。尽管当时人们称其为大数据,但以今日的数据量来看,这些数据无疑是非常有限的。随着PC的出现和应用增多,企业内部出现了很多以公文档为主要形式的数据,包括Word、Excel文档,以及后来出现的图片、图像、影像和音频等。此时企业内部生产数据的已不仅是企业的财务人员,还包括大量的办公人员,这极大地促进了数据 量的增长。互联网的兴起则促成了数据量的第三次大规模增长,在互联网的时代,几乎全民 都在制造数据。而与此同时,数据的形式也极其丰富,既有社交网络、多媒体等应用所主动 产生的数据,也有搜索引擎、网页浏览等被动行为过程中被记录、搜集的数据。时至今日,随着移动互联网、物联网、云计算应用的进一步丰富,数据已呈指数级的增长,企业所处理的数据已经达到PB级,而全球每年所产生的数据量更是到了惊人的ZB级。在数据的这种 爆炸式增长的背景下,“大数据”的概念逐渐在科技界、学术界、产业界引起热议。在大数据时代,我们分析的数据因为“大”,摆脱了传统对随机采样的依赖,而是面对全体数据;因为所有信息都是“数”,可以不再纠结具体数据的精确度,而是坦然面对信息的混杂;信息之“大”之“杂”,让我们分析的“据”也由传统的因果关系变为相关关系。 大数据热潮的掀起让中国期待“弯道超越”的机会,创造中国IT企业从在红海领域苦 苦挣扎转向在蓝海领域奋起直追的战略机遇。传统IT行业对于底层设备、基础技术的要求 非常高,企业在起点落后的情况下始终疲于追赶。每当企业在耗费大量人力、物力、财力取 得技术突破时,IT革命早已将核心设备或元件推进至下一阶段。这种一步落后、处处受制于人的状态在大数据时代有望得到改变。大数据对于硬件基础设施的要求相对较低,不会受困于基础设备核心元件的相对落后。与在传统数据库操作层面的技术差距相比,大数据分析应用的中外技术差距要小得多。而且,美国等传统IT强国的大数据战略也都处于摸着石头 过河的试错阶段。中国市场的规模之大也为这一产业发展提供了大空间、大平台。大数据对 于中国企业不仅仅是信息技术的更新,更是企业发展战略的变革。随着对大数据的获取、处 理、管理等各个角度研究的开展,企业逐渐认识数据已经逐渐演变成“数据资产”。任何硬件、软件及服务都会随着技术发展和需求变化逐渐被淘汰,只有数据才具有长期可用性,值得积累。数据是企业的核心资产,可以是也应该是独立于软硬件系统及应用需求而存在的。 大数据是信息技术演化的最新产物,确立了数据这一信息技术元素的独立地位。正因为数据不再是软硬件及应用的附属产物,才有了今天爆炸式的数据增长,从而奠定了大数据的基础。

大数据技术研究综述

大数据技术研究综述 摘要:大数据是继云计算、物联网之后IT 产业又一次颠覆性的技术革命。文中介绍了大数据的概念、典型的4“V”特征以及大数据的关键技术,归纳总结了大数据处理的一般流程,针对其中的关键技术,如MapReduce、GFS、Hadoop以及NoSQL等,介绍了基本的情况。最后,本文对大数据时代做了总结与展望。 关键词:大数据;数据处理技术;云计算

当人们还在津津乐道云计算、物联网等主题时,一个崭新的概念——大数据横空出世。大数据是继云计算、物联网之后IT产业又一次颠覆性的技术革命,对国家治理模式、企业决策、组织和业务流程,以及个人生活方式等都将产生巨大的影响。大数据的挖掘和应用可创造出超万亿美元的价值,将是未来IT 领域最大的市场机遇之一,其作用堪称又一次工业革命[1]。 我们身处数据的海洋,几乎所有事物都与数据有关,环境、金融、医疗……我们每天都在产生数据,打电话、发短信、进地铁站安检、进办公楼刷卡、在QQ 上聊天、上淘宝网购物……大量数据实时地影响我们的工作、生活乃至社会发展。数据成为与自然资源、人力资源同样重要的战略资源,引起了科技界和企业界的高度重视。 1大数据的概念 大数据本身就是一个很抽象的概念,提及大数据很多人也只能从数据量上去感知大数据的规模,如:百度每天大约要处理几十PB 的数据;Facebook 每天生成300 TB以上的日志数据;据著名咨询公司IDC 的统计,2011年全球被创建和复制的数据总量为1.8 ZB(1021) ,但仅仅是数据量并不能区分大数据与传统的海量数据的区别。在2008年《Science》杂志出版的专刊中,大数据被定义为“代表着人类认知过程的进步,数据集的规模是无法在可容忍的时间内用目前的技术、方法和理论去获取、管理、处理的数据”[2]。 大数据不是一种新技术,也不是一种新产品,而是一种新现象,是近来研究的一个技术热点。大数据具有以下4个特点,即4个“V”: (1) 数据体量(V olumes) 巨大。大型数据集,从TB级别,跃升到PB级别。 (2) 数据类别(Variety) 繁多。数据来自多种数据源,数据种类和格式冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。 (3) 价值(Value) 密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅一两秒钟。 (4) 处理速度(Velocity) 快。包含大量在线或实时数据分析处理的需求,1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。

大数据环境下的增强学习综述_仵博

大数据环境下的增强学习综述* 仵 博,冯延蓬,孟宪军,江建举,何国坤 (深圳职业技术学院 教育技术与信息中心,广东 深圳 518055) 摘 要:在大数据应用领域,如何快速地对海量数据进行挖掘是当前大数据应用基础研究的热点和难点,也是制约大数据真正应用的关键.而机器学习是解决该问题的有效途径,本文综述抽象增强学习、可分解增强学习、分层增强学习、关系增强学习和贝叶斯增强学习等五类增强学习方法的研究进展,分析了它们的优势和缺点,指出将监督学习或半监督学习与增强学习相结合是大数据机器学习的有效方法. 关键词:大数据;增强学习;维数灾 中图分类号:TP18 文献标志码:B 文章编号:1672-0318(2014)03-0071-05 增强学习(Reinforcement Learning,简称RL)是一种有效的最优控制学习方法,实现系统在模型复杂或者不确定等条件下基于数据驱动的多阶段优化学习控制,是近年来一个涉及机器学习、控制理论和运筹学等多个学科的交叉研究方向.增强学习因其具有较强的在线自适应性和对复杂系统的自学能力,使其在机器人导航、非线性控制、复杂问题求解等领域得到成功应用[1-4].经典增强学习算法按照是否基于模型分类,可分为基于模型(Model-based)和模型自由(Model-free)两类.基于模型的有TD学习、Q学习、SARSA和ACTOR-CRITIC等算法.模型自由的有DYNA-Q和优先扫除等算法.以上经典增强学习算法在理论上证明了算法的收敛性,然而,在实际的应用领域,特别是在大数据环境下,学习的参数个数很多,是一个典型的NP难问题,难以最优化探索和利用两者之间的平衡[5-8].因此,经典增强学习算法只在理论上有效. 为此,近年来的增强学习研究主要集中在减少学习参数数量、避免后验分布全采样和最小化探索次数等方面,达到算法快速收敛的目的,实现探索和利用两者之间的最优化平衡.当前现有算法按照类型可分为五类:1)抽象增强学习;2)可分解增强学习;3)分层增强学习;4)关系增强学习;5)贝叶斯增强学习. 1 抽象增强学习 抽象增强学习(Abstraction Reinforcement Learning,简称ARL)的核心思想是忽略掉状态向量中与当前决策不相关的特征,只考虑那些有关的或重要的因素,达到压缩状态空间的效果[9].该类算法可以在一定程度上缓解“维数灾”问题.状态抽象原理如图1所示. 目前,状态抽象方法有状态聚类、值函数逼近和自动状态抽象等方法.函数逼近方法难于确保增强学习算法能够收敛,采用线性拟合和神经网络等混合方法来实现函数逼近是当前的研究热点和方向.状态聚类利用智能体状态空间中存在的对称性来压缩状态空间,实现状态聚类.自动状态抽象增 深圳职业技术学院学报 2014年第3期 No.3, 2014 收稿日期:2013-10-14 *项目来源:广东省自然科学基金项目(S2011040004769)和深圳市科技研发资金项目(JCYJ20120617134831736) 作者简介:仵 博(1979-),男,河南桐柏人,副教授,博士,主要研究领域为序贯决策、机器学习和大数据. 冯延蓬(1980-),男,山东潍坊人,讲师,硕士,主要研究领域为无线传感器网络、智能决策和大数据. 孟宪军(1979-),男,北京大兴人,助理研究员,博士,主要研究领域为数据挖掘、自然语言处理和机器学习. 江建举(1976-),男,河南内乡人,高级工程师,硕士,主要研究机器人控制、群智能和大数据. 何国坤(1980-),男,广东深圳人,高级工程师,硕士,主要研究领域为软件工程、机器学习和大数据. https://www.sodocs.net/doc/48570592.html,- 71 -

大数据时代 文献综述

智慧时代下大数据技术在教育 领域的应用研究综述 姓名:李欢欢学号:2012221111120004 一、前言 大数据是近年来出现在通信和计算机领域中的一个热门关键词。关于大数据,尚未有一个统一的定义,但却有两个观点能够诠释大数据的本质。第一个观点来自于Gartner公司的Merv Adrian在2011年第一季度刊登在Teradata Magazine上的一篇文章,文中指出“数据超出了常用硬件环境和软件工具在可接受的时间内为其用户收集、管理和处理数据的能力”[1]。另一个观点来自于麦肯锡全球数据分析研究所(Mckinsey Global Institute)在2011年6月发布的《大数据:创新、竞争和生产力的下一个前沿》报告,报告中提出“大数据是指大小超出了典型数据库软件工具收集、存储、管理和分析能力的数据集”[2]。麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和应用,预示着新一波生产率增长和消费者盈余浪潮的到来。” 大数据已经深刻地影响到人们的生活、工作和学习。大数据的意义在于对由多种类型数据构成的数据集体进行分析和研究,提取有利用价值的信息,从而帮助人们在解决问题时可以作出科学的决策。同样大数据的威力强烈地冲击着教育系统,正在成为推动教育系统创新与变革的颠覆性力量。 二、大数据技术在教育领域的应用现状分析 1 大数据定义与特征 大数据(bigdata),又称巨量资料,海量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。研究机构Gartner[3]认为“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。麦肯锡的定义:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。无论哪种定义,我们可以看出,大数据并不是一种新的产品也不是一种新的技术,大数据只是数字化时代出现的一种现象。 大数据的主要特点可以概括为4V+1C。4V包含了四个层面:第一,即V olume(大容量),海量数据,规模庞大,已跃升到PB 级别;第二,Velocity(高速度),实时处理,处理速度快,涉及感知、传输、决策、控制开放式循环的大数据,数据实时处理有着极高要求,通过传统数据库查询方式得到的“当前结果”可能已没有价值,这也是大数据和传统的数据挖掘技术本质上的不同;第三,Variety(多样性),数据类型繁多:网络日志、视频、地理位置信息、图片等都是大数据;第四,Veracity(低密度),数据价值大,但价值密度低。对海量数据挖掘分析,对未来趋势与模式的可预测分析,深度复杂分析;“1C”即Complexity,是通过数据库处理持久存储的数据不再适用于大数据处理,需要有新的方法来满足异构数据统一接入和实时数据处理的需求[4]。 2 国内研究现状 对于“智慧时代下大数据技术在教育领域的应用”国内研究的现状,我主要通过借助中国知网提供的论文发表数据进行分析。在中国知网中选择“高级检索”类型,并在检索条件中选择“主题”检索,输入“大数据”并含“教育”,截止到2014年4月17日共检索出303 条结果与之相关,通过手工筛选,把会议报道等无关信息剔除掉,剩余160篇文章。 大数据在教育领域的应用,与国外相比,国内起步稍晚,还未形成整体力量。虽然2009年开始,大数据就成为了流行词汇,但是它在教育领域的应用是近3年才出现的。国内最早

大数据时代的空间数据挖掘综述

第37卷第7期测绘与空间地理信息 GEOMATICS &SPATIAL INFORMATION TECHNOLOGY Vol.37,No.7收稿日期:2014-01-22 作者简介:马宏斌(1982-),男,甘肃天水人,作战环境学专业博士研究生,主要研究方向为地理空间信息服务。 大数据时代的空间数据挖掘综述 马宏斌1 ,王 柯1,马团学 2(1.信息工程大学地理空间信息学院,河南郑州450000;2.空降兵研究所,湖北孝感432000) 摘 要:随着大数据时代的到来,数据挖掘技术再度受到人们关注。本文回顾了传统空间数据挖掘面临的问题, 介绍了国内外研究中利用大数据处理工具和云计算技术,在空间数据的存储、管理和挖掘算法等方面的做法,并指出了该类研究存在的不足。最后,探讨了空间数据挖掘的发展趋势。关键词:大数据;空间数据挖掘;云计算中图分类号:P208 文献标识码:B 文章编号:1672-5867(2014)07-0019-04 Spatial Data Mining Big Data Era Review MA Hong -bin 1,WANG Ke 1,MA Tuan -xue 2 (1.Geospatial Information Institute ,Information Engineering University ,Zhengzhou 450000,China ; 2.Airborne Institute ,Xiaogan 432000,China ) Abstract :In the era of Big Data ,more and more researchers begin to show interest in data mining techniques again.The paper review most unresolved problems left by traditional spatial data mining at first.And ,some progress made by researches using Big Data and Cloud Computing technology is introduced.Also ,their drawbacks are mentioned.Finally ,future trend of spatial data mining is dis-cussed. Key words :big data ;spatial data mining ;cloud computing 0引言 随着地理空间信息技术的飞速发展,获取数据的手 段和途径都得到极大丰富,传感器的精度得到提高和时空覆盖范围得以扩大,数据量也随之激增。用于采集空间数据的可能是雷达、红外、光电、卫星、多光谱仪、数码相机、成像光谱仪、全站仪、天文望远镜、电视摄像、电子 显微镜、CT 成像等各种宏观与微观传感器或设备,也可能是常规的野外测量、人口普查、土地资源调查、地图扫描、 地图数字化、统计图表等空间数据获取手段,还可能是来自计算机、 网络、GPS ,RS 和GIS 等技术应用和分析空间数据。特别是近些年来,个人使用的、携带的各种传感器(重力感应器、电子罗盘、三轴陀螺仪、光线距离感应器、温度传感器、红外线传感器等),具备定位功能电子设备的普及,如智能手机、平板电脑、可穿戴设备(GOOGLE GLASS 和智能手表等),使人们在日常生活中产生了大量具有位置信息的数据。随着志愿者地理信息(Volunteer Geographic Information )的出现,使这些普通民众也加入到了提供数据者的行列。 以上各种获取手段和途径的汇集,就使每天获取的 数据增长量达到GB 级、 TB 级乃至PB 级。如中国遥感卫星地面站现在保存的对地观测卫星数据资料达260TB ,并以每年15TB 的数据量增长。比如2011年退役的Landsat5卫星在其29年的在轨工作期间,平均每年获取8.6万景影像,每天获取67GB 的观测数据。而2012年发射的资源三号(ZY3)卫星,每天的观测数据获取量可以达到10TB 以上。类似的传感器现在已经大量部署在卫 星、 飞机等飞行平台上,未来10年,全球天空、地空间部署的百万计传感器每天获取的观测数据将超过10PB 。这预示着一个时代的到来,那就是大数据时代。大数据具有 “4V ”特性,即数据体量大(Volume )、数据来源和类型繁多(Variety )、数据的真实性难以保证(Veracity )、数据增加和变化的速度快(Velocity )。对地观测的系统如图1所示。 在这些数据中,与空间位置相关的数据占了绝大多数。传统的空间知识发现的科研模式在大数据情境下已经不再适用,原因是传统的科研模型不具有普适性且支持的数据量受限, 受到数据传输、存储及时效性需求的制约等。为了从存储在分布方式、虚拟化的数据中心获取信息或知识,这就需要利用强有力的数据分析工具来将

大数据研究现状

选题理由:移动互联网和云计算都是我们可以触及到的东西,而大数据是一个抽象的概念,现在媒体总在说大数据时代的到来,那大数据到底是什么,为什么它如此受关注,为何它对人们的生活和生产具有如此深刻的影响,借这个机会我也想深入地了解了一下,并在此与大家分享有关大数据的知识。 最早提出大数据时代已经到来的机构是全球知名咨询公司麦肯锡。麦肯锡在研究报告中指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素。而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。 何为大数据 大数据是指需要通过快速获取、处理、分析以从中提取价值的海量、多样化的交易数据、交互数据与传感数据。 所涉及的数据量规模巨大到无法通过人工在合理时间内完成信息的采集、处理、管理,并将其整理成为人类所能解读的信息。 当今世界经济中,企业为了发现新的盈利长机会,更加依赖来自消费者的喜好和见解。在发现和挖掘这些喜好和见解的过程中,产生数量巨大、结构复杂、类型众多的数据,这些数据通过集成共享,交叉复用,成为有价值的经济信息资源,形成一种智力资源和知识服务能力。 大数据有多大how big is big data 大,即海量,巨型。 领域内的大多数专业人士认为TB(太字节,百万兆)或PB级是目前大数据的基准。但也有业内人士认为无法为大数据定义一个具体的数量级,因为当今科技迅猛发展,今天的“大”可能是明天的“正常”数量。也就是说大数据是附着在人力和技术基础设施无法跟上公司的数据需求步伐的情况下的主观标签。 各大公司的数据情况 Google 公司通过大规模集群和MapReduce软件,每个月处理的数据量超过400PB。 百度的数据量:数百PB,每天大约要处理几十PB数据,大多要实时处理,如微博、团购、秒杀。 Facebook:注册用户超过8.5亿,每月上传10亿照片,每天生成300TB日志数据 淘宝网:有3.7亿会员,在线商品8.8亿,每天交易数千万,产生约20TB数据。 Yahoo!的数据量:Hadoop云计算平台有34个集群,超过3万台机器,总存储容量超过100PB。 工业革命以后,以文字为载体的信息量大约每十年翻一番;1970年以后,信息量大约每三年就翻一番;如今,全球信息总量每两年就可以翻一番。2011年全球被创建和被复制的数据总量为1.8ZB(1ZB=1021Byte)其中75%来自于个人。互联网数据中心(IDC)认为,到下一个十年(2020年),全球所有IT部门拥有服务器的总量将会比现在多出10倍,所管理的数据将会比现在多出50倍。根据麦肯锡全球研究院(MGI)预测,到2020年,全球数据使用量预计将暴增44倍,达到35ZB 数据如此膨胀,大数据的处理及应用成为企业经营及价值创造上非常重要的课题。 大数据特点:3V Volume:数据量大:目前一般认为PB级以上数据看成是大数据;

大数据文献综述英文版

大数据文献综述英文版 Prepared on 24 November 2020

The development and tendency of Big Data Tang Xia (Guilin University of electronic technology, electronic engineeringandautomation, Guilin) Abstract: "Big Data"is the most popular IT word after the "Internet of things"and "Cloud computing". From the source, development, status quo and tendency of big data, we can understand every aspect of it. Big data is one of the most important technologies around the world and every country has their own way to develop the technology. Key words: big data; IT; technology 1 The source of big data Despite the famous futurist Toffler propose the conception of “Big Data” in 1980, for a long time, because the primary stage is still in the development of IT industry and uses of information sources, “Big Data” is not get enough attention by the people in that age[1]. 2 The development of big data Until the financial crisis in 2008 force the IBM ( multi-national corporation of IT industry) proposing conception of “Smart City” and vigorously promote Internet of Things and Cloud computing so that information data has been in a massive growth meanwhile the need for the technology is very urgent. Under this condition, some American data processing companies have focused on developing large-scale concurrent processing system, then the “Big Data” technology become available sooner and Hadoop mass data concurrent processing system has received wide attention. Since 2010, IT giants have proposed their products in big data area. Big companies such as EMC、HP、IBM、Microsoft all purchase other manufacturer relating to big data in order to achieve technical integration[1]. Based on this, we can learn how important the big data strategy is. Development of big data thanks to some big IT companies such as Google、Amazon、China mobile、Alibaba and so on, because they need a optimization way to store and analysis data. Besides, there are also demands of health systems、geographic space remote sensing and digital media[2]. 3 The status quo of big data Nowadays America is in the lead of big data technology and market application. USA federal government announced a “Big Data’s research and development” plan in March,2012, which involved six federal government department the National Science Foundation, Health Research Institute, Department of Energy, Department of Defense, AdvancedResearchProjectsAgency and

相关主题