搜档网
当前位置:搜档网 › 大数据研究与应用综述_上_

大数据研究与应用综述_上_

大数据研究与应用综述_上_
大数据研究与应用综述_上_

大数据研究与应用综述(上)

胡雄伟1 张宝林2 李抵飞3

(1.国家标准委标准信息中心,北京 100088;2.中国标准化研究院,北京 100088;3.吉林大学,长春 130015)

摘 要:在系统分析国内外大数据研究与应用现状的基础上,梳理了涉及大数据的10个重要概念,总结分析了企业大数据的策略和商业应用案例、美英等国政府数据开放政策及做法,以及大数据应用的技术和业务特点。在分析大数据时代面临挑战基础上,整理了大数据研究与发展的重要问题和发展趋势,提出正确应对大数据挑战的观点。

关键词:大数据 数据开放 数据价值

Overview of Big Data Research and Application (Part A)

HU Xiong-wei1 ZHANG Bao-lin2 LI Di-fei3

(1.Standards Information Center of Standardization Administration of China,Beijing 100088; 2. China National Institute of

Standardization,Beijing 100088; 3. Jinlin University,Changchun 130015)

Abstract: On the basis of the systematic analysis of domestic and foreign big data research and application, the paper introduces ten key concepts related to big data, analyzes the strategies of enterprise big data, commercial application cases, open policies of data in the United States, the U.K. etc., as well as the application technologies and business characteristics of big data. The paper also summarizes the important issues and development trends of big data research and development and proposes the methods of facing the future challenges.

Keywords: big data, open data, data value

1 基本概念

1.1 数据、信息与知识

“数据”与“信息”两个词经常是交替混淆使用。两个概念有很大的区别,不同学者有不同的定义和内涵,反映了学者出发点和认识的不同。一般认为,数据和信息是描述事物的不同方面。数据是数字化的信息记录,数据本身不具有具体的意义。信息是把数据置于特定的背景下,对数据的解释和注释,赋予数据具体的意义。当然广义的信息内涵更广。在信息化时代,人们通常把所有存储在计算机里的各类信息统称为数据,即所谓的泛数据。

所谓知识是指人类识别万物实体与性质,以及是与不是的信息集合。一般说法是,知识是人类认识自然、改造自然过程中实践经验的总结。因此,知识是针对某个具体事物、具体领域或过程的特

基金项目:科学仪器设备自主创新的方法体系构建和保障研究(2011IM010400)研究成果之一。

作者简介:胡雄伟(1964-)男,理学博士,研究员,主要从事标准化、信息化等研究。

张宝林(1980-)男,硕士,高级工程师,主要从事应用软件应用开发与系统集成。

李抵飞(1986-)男,吉林大学博士研究生。

29

定信息的集合。比如:79是个数据;某某今年是79岁,这是一条信息;某某地区的平均寿命是79岁,这是经过总结分析、归纳提炼形成的知识。从数据 信息 知识的变化过程,是认识不断深化的过程,也是内涵不断扩大,信息量不断增加,价值不断增值的过程。

1.2 最小数据集与大数据

最小数据集(Minimum Data Set)是指管理层面针对具体业务领域强制收集的数据指标的集合,是针对被观察对象建立的简单使用的数据指标,是基本数据项的集合。建立最小数据集的目的是通过收集最少的数据,最适当地把握对象、事件或状态的基本状况,满足不同组织、机构之间的信息交换的需要。最小数据集是标准化、规范化的数据,是关系型数据,是数据交换的接口。最小数据集的设定具有数据采集、保存和处理成本方面的考虑。

最小数据集是业务管理过程中最重要的数据指标,是开发设计不同信息管理系统的基础。一旦确定了核心数据指标,数据库结构设计就水到渠成。有时,最小数据集可以直接被引用成为信息管理系统的数据结构。因此,可以认为,最小数据集是面向业务过程的核心数据集合,属于业务数据。最小数据集的建立与业务过程密切相关。由于业务类型和内容的千差万别,最小数据集的类型和数据结构也是五花八门。

大数据概念提出的背景: Gartner(2001)研究指出,现代信息社会的信息爆炸已经演变成了数据爆炸。数据爆炸源于网络电子商务的普及,以及智能移动设备、传感器的广泛使用,导致微博、RFID、视频、音频等原始数据爆炸式增长。数据爆炸在三维空间发生,包括(1)同一类型数据量的快速增长,(2)数据增长的速度在不断加快,(3)新的数据类型不断出现,数据多样性在不断地增加。

大数据不是一个严格的科学概念,还没有严格的定义。一般讲,所谓大数据是指数据量的大小超出了传统意义上的数据尺度,一般的软件工具难以捕捉、存储、管理和分析的数据。IDC研究报告提出,大数据技术描述了一种新一代技术及其构架,用于以很经济的方式、以高速的捕获、发现和分析技术,从各种超大规模的数据中提取价值。大数据的数量级应该是在PB级别。但是,数据量的大小不是判断大数据的唯一指标。大数据具有4V特点,分别是数据量(Volume)、时效性(Velocity)、多样性(Variety)和数据准确性(Veracity)。也有人把第四个V定义成数据的低价值密度性(Value)。区别于传统意义上的数据,大数据的数据类型复杂,是各种类型数据的集合。大数据的一个显著特点是包括了大量的非结构化或半结构化数据,如网络日志、图片、音频、视频、地理位置信息等。大数据的价值密度低。例如:在大量的视频监控数据中,真正有价值的信息可能只有其中有限的几帧,大量的视频数据是无价值数据。大数据的增长速度极快,尤其是电子商务实时交互数据、传感器实时采集数据铺天盖地。大数据要求处理速度快,大量的实时数据需要快速处理。大数据的获取渠道已经多样化,物联网、互联网、无线移动网、手机等移动终端以及各种各样的传感器(如RFID)都构成了大数据的重要来源。

1.3 运营式信息系统与决策分析系统

所谓运营式系统是指为提高日常工作效率、满足业务运行管理而设计开发的信息系统。在这类系统中,数据是业务过程的记录,数据的作用是满足保存和查询的需要,而主要不是满足数据分析的需求。现在运行中大量的各种类型的信息管理系统都属于运营式信息系统。运营式系统多采用关系型数据库存储数据,提供数据查询与统计分析报表等功能。报表是运营式系统中将数据转换为有用信息和知识的主要手段。

决策分析系统是建立在数据仓库基础上,提供数据挖掘、数据分析、联机分析等技术方法的信息系统,属于业务智能系统,提供基于数据的决策或称为数据驱动的决策。决策分析系统中的关键技术是数据仓库、数据挖掘、联机分析和数据可视化技术。业务智能系统是专家决策系统的发展,前者依据客观数据分析,是数据驱动的决策,后者是依据专家的知识模型建立的决策系统。

(1)数据仓库(Data Warehouse)是面向主题(Subject Oriented)、集成 (Integrated)、相对稳定(Non-Volatile)、反映时间变化(Time Variant)的数据集合,用于管理过程中的决策分析。而关系型数据库是面

30

向对象(Object Oriented)的数据集合。简单说,数据仓库是以数据分析、决策支持为目的来组织存储数据,而关系性数据库是为运营系统保存和查询数据来组织存储数据。数据仓库是商务智能的基础,是对海量数据进行分析的核心构架,是格式一致的多源数据存储中心。大数据的数据源可以来自不同的业务系统,不同业务系统的数据按照统一定义的格式,经过清洗、转换、集成等过程,加载到数据仓库中。这个过程可以使用专用工具ETL(Extraction, Transformation, Load)来实现。

(2)联机分析O L A P(O n l i n e A n a l y t i c a l Processing),也称为多维分析,是把分立数据库进行关联,进行多维度分析。数据维度的确定是多维分析的核心,一般是根据数据的属性、目标问题的属性两个方面来确定数据分析的角度(维度)以及维数。

三维分析就是三度空间分析,其形象表示是一个立方体魔方,不同的立方块是数据单元,立方体的不同面代表数据的不同属性。三维以上的数据分析可以通过降维,在多个二维、三维的空间进行分析。在同一个维度可以采用下钻细分(drill down)方法了解更细粒度的数据状态和特点,也可以采用上卷(roll up)的方法,进行该维度的数据汇总,了解更加宏观的情况。

在传统的关系型数据库中也采用维度分析的方法进行数据处理。区别在于,关系型数据库的数据分析多采用报表形式,对系统中的数据进行统计分析。数据报表是在软件设计开发阶段预先设计好的固定格式,一旦软件开发后,由于报表已经定制,不易于变更和动态更新。

联机分析好处是,用户可以按照自己的需要建立万维(三维)动态数据报表。从技术角度分析,是把报表的定制权限由后台的软件开发人员移到前台的用户。技术开发人员只需要在后台建立多维数据立方体(Data Cube),建立数据模型,形成数据魔方(Rubik’s Cube),用户就可以在前台实现不同数据维度之间进行自由切换,从不同的维度、不同的粒度对数据进行自由分析,随时获得全面、动态的分析结果。

(3)数据挖掘

一个形象的比喻是,数据仓库是数据资源池,是数据资源的聚合,提供了具有潜在价值的“矿产”资源。联机分析是对数据资源的一种透视性探测,相当于探矿和矿产预测,通过寻找和发现具有开采价值“矿体”的分布及其关系研究,预测未知的“矿体”。数据挖掘是对数据资源的开采,相当于“采矿”过程。数据挖掘的目的是发现隐藏在数据之中的数据关系、历史数据演化的规律,并且采用数据模型描述数据规律。这个过程相当于矿产资源研究中的成矿规律研究,建立成矿模型和找矿模型。其二是对未来进行预测,通过基于数据的预测分析,为业务的未来发展进行预测评价,这个过程相当于找矿预测和矿体验证。

传统的数据挖掘主要是针对结构化数据进行数据关系和数据规律研究。随着网络数据的大量出现,针对博客、论坛、微博、社交网站等大量的复杂类型的非结构化数据资源的整合和挖掘已经成为了数据挖掘技术的新领域和发展方向。

(4)可视化

数据可视化是统计学的一个基本要求,不同的统计方法毫无例外地采用图表的方式描述统计结果,直观地反映数据规律,形象地说明数据集的特征及其关系。数据可视化技术是对数理统计图表的发展,目的是借助计算机图形学技术的进步,开发更加多样化、复杂的、多维图表的图形显示方法,用来描述数据及其变化。除了传统的散点图、折线图、直方图、饼图等简单图表外,出现了仪表盘、记分板、三维图形等图表,以及采用动态模拟技术、动画技术等更加直观化、形象化和趣味化的图形表述方法。现代数据可视化技术的发展是数据分析技术和美学设计的结合。一种成功的图形表示,已经成为数据分析的重要手段,是数据分析技术和构图艺术两者的结合。数据可视化不但要求是准确无误的,而且应该是丰富多彩的、有趣味的、吸引人们注意力的,甚至是美的,能够给人以深刻的印象。

数据可视化的关键是图形的设计。适度是图形设计的一个重要原则。图面负担过重、信息过载说明设计存在问题,需要修改完善图形设计。数据混搭器(https://www.sodocs.net/doc/1414031559.html,)提供了一个数据处理平台,可以用地图等形式直观地表示数据。目标数据分析结果、对象数据的空间位置和地理空间信息系统

31

(GIS)技术的有机结合是数据可视化的一个重要技术途径。

数据可视化作为一种知识表达、知识展示和知识传递的有效手段,促进了数据科学的大众化和推广应用。通过将复杂、抽象、枯燥、难于理解的数据转化为直观的图形,并呈现给普通用户,使得业务智能和决策分析不再是少数高级数据分析技术人员的专利,而是成为了通俗易懂、人人可用的工具和手段,这是一个巨大的进步。

1.4 业务(商务)智能流程

商务智能已经成为商务信息系统的一个发展方向。推而广之,商务智能的思路和技术可以应用到更多的业务系统,由此提出业务(商务)智能的概念。所谓业务智能是指基于数据整合、数据分析、数据挖掘和数据可视化展示基础上的业务智能决策系统,是以客观数据为支持、辅助业务决策的技术和方法,是一种数据驱动的决策方法。业务智能技术的发展,其影响不仅仅是使用新的技术,为决策提供数据和技术的支撑,而且已经影响到已有的决策过程。

1.5 数据质量原则

数据质量问题涉及数据收集、使用、发布的整个过程,贯穿在数据管理工作的始终。但是,数据质量问题往往出现在数据发布阶段。这是因为,数据一旦经过政府发布,往往被认为是权威的,对社会各个领域都可能产生重大的影响。在互联网时代,任何一份通过网络发布的信息,都不再只是面对特定的人群,而是面对全体公众。在网络环境下,有足够多的眼睛在审视所有的数据,使得所有的可能数据错误都无所遁形。如果发布的数据不可靠,将面临着来自社会的频繁、大范围的质疑。特别是,影响到社会公共政策和技术标准的数据,将引起巨大的争议。所以政府和相关机构发布数据时,必须慎之又慎,确保质量。

2002年美国颁布《数据质量法》(Data Quality Act)。美国行政管理预算局(OMB)曾经制定过3个数据质量原则,它们是:

(1)数据质量标准。各个部门的数据质量必须制定统一的数据质量标准,包括客观、实用和完整性3个方面。所谓客观性是指数据是否准确、客观、可靠;所谓实用性是指数据是否对社会有用;所谓完整性是指是否能够保证数据在收集、整理过程中不受到非法的接触和篡改。

(2)质量管理流程。需要建立和完善信息管理流程和制度,通过制度确保数据收集、处理过程的质量控制。

(3)数据质量救助机制。与数据相关的各个部门需要有行政管理机制和相应的纠错业务机制来面对来自社会公众的质疑和挑战,并采用适当的纠错机制进行补救。

1.6 数字化与数据化

数字化是把摸拟信息转换成为用0、1表示的二进制代码,用计算机可以保存处理的过程。从上个世纪90年代开始,主要是针对文本资料档案的数字化,后来是图像、声音等摸拟信号记录的数字化,转换成为数字信息。

数据化是一种把现象转变为可以制表分析的量化形式的过程。计量和记录是数据化的最早根基。数字化是数据化的基础,数字化带来了数据化,但是,数字化无法取代数据化。文献资料的数字化是把文本变成数字化的图像,可供保存和阅读,但没有形成文字数字,机器无法对文字内容进行处理。文字数据化是对文献内容进行数据化,多采用OCR 识别或人工录入等方式进行。数据化的文献不但可以保存、阅读,还可以对文献内容进行机器处理和机器分析。

在大数据时代需要数据化。一切方位、业务沟通过程、世间万物都可以用数据来描述,可以存储在计算机中,并可以用机器进行处理和分析。

1.7 数据的价值

数据是有价值的,不仅仅是因为数据采集、加工和保存需要成本。数据就像一颗神奇的钻石,在开采、分选、切割、研磨、销售以及以后的使用过程中,不断地被赋予新的价值增值。同时还有稀缺性和唯一性等特殊价值。有如海面上的冰川,肉眼所见只是冰山的一角,绝大部分隐藏在水面以下。我们所看见的数据价值可能只是其中的一小部分,这就是所谓的显在价值。显在价值是显性的、直观的,是数据的原始价值,通过完成数据的基本用途而实现价值体现。大部分的数据价值隐藏在数据内部,是隐性价值,需要通过数据分析才可能得以发

32

现和揭露。数据资源作为无形的资源和资产,不同于有形资源和资产,不会随着使用的增加而减少。数据在使用过程中没有损耗,可以不断使用、重复使用。随着使用次数的增加,数据的价值被不断地发现而增值。数据的价值只有在利用过程中才被发现、发掘和实现。

原始价值是数据的基本价值和显性价值的实现。

再利用的价值是数据潜在价值、隐性价值的发现。数据通过再利用、数据整合、数据重组、数据的扩展、数据的开放获取其隐性价值。数据价值的评估属于无形资产的估价,是一个新兴的领域。

数据价值链是指数据使用过程中的价值传递、价值变化的先后顺序关系。

1.8 数据废气

数据废气是一个描述人们在网上留下的数字轨迹的通俗词汇。它是用户在线交互的副产品,包括用户浏览了哪些页面、停留了多长时间、光标的停留位置、输入的信息内容等信息。这些数据以前被认为是噪音、是废气,被丢弃了。但是,这些数据中包含了大量的用户行为信息,可以成为企业的巨大竞争优势资源。

1.9 数据折旧

数据作为资产同样有折旧的过程。数据具有潜在价值,但是数据的潜在价值也会随着时间的推移而降低。数据是不断更新的。在持续更新过程中,一部分数据会贬值,而另一些数据则不会贬值。我们面临的一个巨大挑战是要判断哪些数据不再有价值了。

1.10 对信息技术(IT)的再认识

长期以来,谈及信息技术(IT)我们更多的是关注排在信息(I)之后的技术(T)。正是因为对于技术的高度重视导致了IT产业的迅猛发展,形成了巨大的信息技术产业群,带动了世界经济的发展。在过去的20多年间,我们没有足够重视,甚至忽视了排在信息技术(T)前面的信息(I)一词。大数据技术的出现使得我们开始关注这个代表信息的I字,开始关注数据,关注数据的分析加工和挖掘,以及由数据信息知识的演变过程。可以预测,大数据处理技术的兴起必将催生大数据产业。这也就是大数据概念出现后,IT巨头们趋之若鹜的重要原因,这也是称谓大数据时代的原因之一。经济学家斯诺格勒提出了“信息不对称理论”,认为掌握信息多的人在社会竞争中处于有利地位,而信息贫乏的人则处于不利地位。前者可以通过向后者有偿转让信息来获取利益,无偿转让则可以获取“善意”的名声。只有实现信息自由流动,各方掌握相同的信息后,彼此才能建立完全的信任。数据资源已经成为企业竞争的一个重要要素。

2 企业的大数据策略和应用

麦肯锡公司认为,数据已经成为生产过程中的基本要素,如同固定资产和人力资源一样。数据已经成为竞争性要素,是竞争的基础,成为提高生产率、创新和为消费者创造价值的支柱。信息时代的竞争,不是单纯的劳动生产率的竞争,而是知识生产率的竞争。数据是信息的载体、知识的源泉,当然也可以创造价值和利润。基于知识的竞争,集中表现为基于数据的竞争。数据竞争将成为经济发展的必然。

数据具有:(1)容易共享,并且使用的人越多,价值越大;(2)重复使用,可以增值;(3)数据整合和重组可以大幅度增值的特点。

数据竞争时代的产业变革,在不同产业有不同的表现。

2.1 传统产业“低成本、高效率”的竞争

企业多使用以事实为基础的决策方法,大量使用数据分析来优化企业运营的各个环节和流程,通过基于数据分析的业务优化和重组,把业务流程和决策过程中具有的潜在价值挤出来,从而达到节约成本、战胜对手、在市场中幸存的目标。现在出现了数据最优先的企业经营管理模式,一切以数据说话,是企业经营管理的发展和进步。

零售业的数据竞争应用表现得十分突出。零售业数据的收集、分析和应用已经穿透了整个行业。零售业的每一个细胞,每一项业务都在“数据竞争”的空气中呼吸成长。零售业的数据应用主要有以下几个方面。

(1)顾客分析:分析顾客群的结构、流量、购买周期、不同顾客群的利润贡献率;具体顾客的购买

33

频率、感兴趣商品的预测、忠诚度和流失的可能性分析。顾客分析的目标是确定可靠的顾客群体、预测消费意愿,主动提供个性化销售和促销服务,提高销售额和利润率。顾客分析是在客户管理系统(CRM)基础上发展起来的决策分析,CRM是顾客分析的前提条件。

(2)商品分析:商品分析是在仓库管理、物流管理、店面布局设计基础上发展起来的决策分析。通过企业内部商品数据分析,结合天气、地理等外部数据的分析,目的是确定:

a)最佳的商品组合和库存量;

b)导入新商品、淘汰旧商品的最佳时机;

c)商品的分类上架、位置布局和捆绑销售合理方案的确定;

d)节前节后、淡季旺季、每天不同时间段的定价、降价策略;

e)促销方法;

f)特定季节(如台风)、特定事件的商品库存和数量。

(3)供应链分析、运营效率分析:主要针对供应商选择、物流优化、现金流计划、人力资源配置等方面的决策分析。

2.2 应用案例

大数据已经获得了一系列成功的商业应用。整理相关资料,汇总如下。

(1)沃尔玛:POP-TTarts蛋挞与飓风商品(手电筒)的关联。

(2)Aviva健康预测模型。

(3)美国商品零售商Target的孕期商品预测。

(4)UPS的汽车维修零件预测。

(5)安大略理工大学Carolyn McGregor与IBM合作的早产儿健康管理应用。

(6)Cynthia Rudin: 爱迪生电力公司管线维修预测模型,预测井盖爆炸应用。

(7)亚马逊的商品推荐系统。

(8)Xoom的跨境异常汇款的报警系统:关注的是不应该出现的情况,而不是具体每个业务的合法性。对样本分析法错过的信息中进行分析。

(9)FARECAST的航线机票价格预测应用中使用了近10亿条航线机票历史信息。

(10)Google流感预测应用:使用5,000万条检索词,处理了4.5亿个不同的数据模型,对比2007年、2008年美国疾控中心实际流感记录,得出45条检索词条记录的组合,建立预测模型,成功预测了2009年H1N1流感的暴发,比美国疾控中心的预测早。

(11)美国交通管理部门的循数管理应用:交通事故按照年、月、周、日、时间段、天气状况等统计分析。

(12)CompStat的街头警察创新应用。把数据分析引入治安管理,破窗理论(Broken Windows Theory)研究交通事故与犯罪活动高发区的关系。

(13)日本东京大学启动人口流动分析项目,分析15个城市300万人口流动数据,实现可视化。

(未完待续)

(责任编辑:赵子军)

34

大数据文献综述

信息资源管理文献综述 题目:大数据背景下的信息资源管理 系别:信息与工程学院 班级:2015级信本1班 姓名: 学号:1506101015 任课教师: 2017年6月 大数据背景下的信息资源管理 摘要:随着网络信息化时代的日益普遍,我们正处在一个数据爆炸性增长的“大数据”时代,在我们的各个方面都产生了深远的影响。大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力就是大数据技术,这也是一个企业所需要必备的技术。“大数据”一词越来越地别提及与使用,我们用它来描述和定义信息爆炸时代产生的海量数据。就拿百度地图来说,我们在享受它带来的便利的同时,无偿的贡献了我们的“行踪”,比如说我们的上班地点,我们的家庭住址,甚至是我们的出行方式他们也可以知道,但我们不得不接受这个现实,我们每个人在互联网进入大数据时代,都将是透明性的存在。各种数据都在迅速膨胀并变大,所以我们需要对这些数据进行有效的管理并加以合理的运用。

关键词:大数据信息资源管理与利用 目录 大数据概念.......................................................... 大数据定义...................................................... 大数据来源...................................................... 传统数据库和大数据的比较........................................ 大数据技术.......................................................... 大数据的存储与管理.............................................. 大数据隐私与安全................................................ 大数据在信息管理层面的应用.......................................... 大数据在宏观信息管理层面的应用.................................. 大数据在中观信息管理层面的应用.................................. 大数据在微观信息管理层面的应用.................................. 大数据背景下我国信息资源管理现状分析................................ 前言:大数据泛指大规模、超大规模的数据集,因可从中挖掘出有价值 的信息而倍受关注,但传统方法无法进行有效分析和处理.《华尔街日

大数据的研究与应用 (1)

毕业设计(论文)报告题目大数据的研究与应用 二级学院物联网与软件技术学院 专业物联网应用技术 班级物联(单招)1601 学生姓名王龙 学号100160869 指导教师杨晔 2019年3月

毕业论文(设计)承诺书 本人郑重承诺: 1、本论文(设计)是在指导教师的指导下,查阅相关文献,进行分析研究,独立撰写而成的。 2、本论文(设计)中,所有实验、数据和有关材料均是真实的。 3、本论文(设计)中除引文和致谢的内容外,不包含其他人或机构已经撰写发表过的研究成果。 4、本论文(设计)如有剽窃他人研究成果的情况,一切后果自负。作者签名:签字日期:年月日

大数据的研究与应用 摘要:现如今的21世纪,经济水平在不断的快速发展,大数据已经不是一个陌生的代名词,越来越多的存在于人们的视线中。无论是在人们日常的生活中,还是人们的衣食住行以及工作,都发挥着重大的用途。不了解的人可能觉得大数据只能运用在商业或者政府机构,实际上还适用于我们每一个人。在当今年代,伴随着计算机信息技术的不断发展,已经融入到了各种行业当中。随着网上的信息资源量的不断膨胀增加,此技术给人们带来方便的同时,由于它的复杂性质还是带来了一些用户使用的不方便。大数据的类型具有多样化的特征,能够进行多样化的数据存储以及分析功能,同时还能够捕获大量的信息资源进行存储和分析,这是传统的数据处理技术远远达不到的。本文正是进行研究我国大数据技术的发展现状和面临的挑战,并提出有效的发展策略,以至于可以为中国大数据技术的发展起到借鉴意义。 关键词:大数据、价值、数据处理技术、多样化

Research and application of big data Abstract:With the rapid development of the 21st century, people should be quite familiar with the term "big data." Big data is also increasingly integrated into our daily lives. From our food and clothing to work, big data plays a very important role and role. Big data is not only for business and government, but for everyone in our lives. Nowadays, with the rapid development of computer information technology and Internet information technology, computer network technology has penetrated into all walks of life. The information resources on the network have exploded, and the use of Internet information technology has brought great convenience to our lives. The complexity of the information on the Internet has also caused great trouble to users. The data types in the era of big data are also more diverse. Traditional data processing techniques are difficult to meet the storage and analysis of diverse data. However, big data technology can effectively solve the problem of acquisition, storage and analysis of massive information. In-depth study of the development status and challenges of China's big data technology, and propose a targeted development strategy to provide reference for the development of China's big data technology. Key Words :Big data、Value、Data processing technology、Diversification

国内外大数据产业发展现状与趋势研究

龙源期刊网 https://www.sodocs.net/doc/1414031559.html, 国内外大数据产业发展现状与趋势研究 作者:方申国谢楠 来源:《信息化建设》2017年第06期 大数据作为新财富,价值堪比石油。 进入21世纪以来,随着物联网、电子商务、社会化网络的快速发展,数据体量迎来了爆炸式的增长,大数据正在成为世界上最重要的土壤和基础。根据IDC(互联网数据中心)预测,2020年的数据增长量将是2010年的44倍,达到35ZB。世界经济论坛报告称,“大数据为新财富,价值堪比石油”。随着计算机及其存储设备、互联网、云计算等技术的发展,大数据应用领域随之不断丰富。大数据产业将依赖快速聚集的社会资源,在数据和应用驱动的创新下,不断丰富商业模式,构建出多层多样的市场格局,成为引领信息技术产业发展的核心引擎、推动社会进步的重要力量。 大数据产业发展现状 全球大数据产业发展概况 目前,大数据以爆炸式的发展速度迅速蔓延至各行各业。随着各国抢抓战略布局,不断加大扶持力度,全球大数据市场规模保持了高速增长态势。据IDC预测,全球大数据市场规模 年增长率达40%,在2017年将达到530亿美元。美国奥巴马政府于2012年3月宣布投资2亿美元启动“大数据研究和发展计划”,将“大数据研究”上升为国家意志;2015年发布“大数据研究和发展计划”,深入推动大数据技术研发,同时还鼓励产业、大学和研究机构、非盈利机构与政府一起努力,共享大数据提供的机遇。目前,美国大数据产业增长率已超过71%,大数据在美国健康医疗、公共管理、零售业、制造业等领域产生了巨大的经济效益。英国政府自2013年开始就注重对大数据技术的研发投入,2015年投入7300万英镑用于55个政府的大数据应用项目,投资兴办大数据研究中心,通过大数据技术在公开平台上发布了各层级数据资源,直接或间接为英国增加了近490亿至660亿英镑的收入,并预测到2017年,大数据技术可以为英国提供5.8万个新的工作岗位,或将带来2160亿英镑的经济增长。法国2011年推出了公开的数据平台 date.gouv.fr,以便于公民自由查询和下载公共数据;2013年相继发布《数字化路线图》、《法国政府大数据五项支持计划》等,通过为大数据设立原始扶持资金,推动交通、医疗卫生等纵向行业设立大数据旗舰项目,为大数据应用建立良好的生态环境,并积极建设大数据初创企业孵化器。日本在《日本再兴战略》中提出开放数据,将实施数据开放、大数据技术开发与运用作为2013-2020年的重要国家战略之一,积极推动日本政务大数据开放及产业大数据的发展,零售业、道路交通基建、互联网及电信业等行业的大数据应用取得显著效果。韩国政府高度重视大数据发展,科学、通信和未来规划部与国家信息社会局(NIA)共建大数据中心,大力推动全国大数据产业发展。根据《2015韩国数据行业白皮书》统计显示, 数据服务市场规模占韩国总行业市场规模的47%,位列第一;数据库构建服务以41.8%的占有

大数据的概念、特征及其应用

马建光等:大数据的概念、特征及其应用 (2013-09-05 16:15:35) 转载▼ 分类:学习资料 标签: 杂谈 大数据的概念、特征及其应用 马建光,姜巍 (国防科技大学人文与社会科学学院,湖南长沙410074) 源自:国防科技2013年4月 [摘要]随着互联网的飞速发展,特别是近年来随着社交网络、物联网、云计算以及多种传感器的广泛应用,以数量庞大,种类众多,时效性强为特征的非结构化数据不断涌现,数据的重要性愈发凸显,传统的数据存储、分析技术难以实时处理大量的非结构化信息,大数据的概念应运而生。如何获取、聚集、分析大数据成为广泛关注的热点问题。介绍大数据的概念与特点,分别讨论大数据的典型的特征,分析大数据要解决的相关性分析、实时处理等核心问题,最后讨论大数据可能要面临的多种挑战。 [关键词]大数据; 非结构化信息; 解决核心问题; 未来挑战 一、引言 自上古时代的结绳记事起,人类就开始用数据来表征自然和社会,伴随着科技和社会的发展进步,数据的数量不断增多,质量不断提高。工业革命以来,人类更加注重数据的作用,不同的行业先后确定了数据标准,并积累了大量的结构化数据,计算机和网络的兴起,大量数据分析、查询、处理技术的出现使得高效的处理大量的传统结构化数据成为可能。而近年来,随着互联网的快速发展,音频、文字、图片视频等半结构化、非结构化数据大量涌现,社交网络、物联网、云计算广泛应用,使得个人可以更加准确快捷的发布、获取数据。在科学研究、互联网应用、电子商务等诸多应用领域,数据规模、数据种类正在以极快的速度增长,大数据时代已悄然降临。 首先,全球数据量出现爆炸式增长,数据成了当今社会增长最快的资源之一。根据国际数据公司IDC 的监测统计[1],即使在遭遇金融危机的2009 年,全球信息量也比2008 年增长了62%,达到80 万PB ( 1PB 等于10亿GB) ,到2011 年全球数据总量已经达到1. 8ZB ( 1ZB 等于1 万亿GB,) ,并且以每两年翻一番的速度飞速增长,预计到2020 年全球数据量总量将达到40 ZB,10年间增长20 倍以上,到2020 年,地球上人均数据预计将达5247GB。在数据规模急剧增长的同时,数据类型也越来越复杂,包括结构化数据、半结构化数据、非结构化数据等多种类型,其中采用传统数据处理手段难以处理的非结构化数据已接近数据总量的75%。 如此增长迅速、庞大繁杂的数据资源,给传统的数据分析、处理技术带来了巨大的挑战。为了应对这样的新任务,与大数据相关的大数据技术、大数据工程、大数据科学和大数据应用等迅速成为信息科学领域的热点问题,得到了一些国家政府部门、经济领域以及科学领域有关专家的广泛关注。2012 年3 月22 日,奥巴马宣布美国政府五大部门投资2 亿美元启动“大数据研究和发展计划( Big Data Research and Development Initiative) ”[2],欲大力推

大数据综述

Computer Science and Application 计算机科学与应用, 2018, 8(10), 1503-1509 Published Online October 2018 in Hans. https://www.sodocs.net/doc/1414031559.html,/journal/csa https://https://www.sodocs.net/doc/1414031559.html,/10.12677/csa.2018.810163 Overview on Big Data Kaiyue Liu China University of Mining & Technology (Beijing), Beijing Received: Oct. 1st, 2018; accepted: Oct. 11th, 2018; published: Oct. 19th, 2018 Abstract As a current popular technical, big data has received wide attention from every industry. In order to further understand big data, this paper comprehensively describes big data from the six aspects: The basics of big data, the origin and development status of big data, big data processing, big data application, big data challenges and the future of big data. The basics of big data include the con-cepts and differences between big data and traditional databases, and the characteristics of big data. The big data processing includes generating and getting data, preprocessing data, data sto-rage, analyzing and mining data. This article is a systematic review of big data, and can establish a good knowledge system for scholars who are new to big data. Keywords Big Data, Data Storage, Data Mining, Data Visualization, Big Data Application 大数据综述 刘凯悦 中国矿业大学(北京),北京 收稿日期:2018年10月1日;录用日期:2018年10月11日;发布日期:2018年10月19日 摘要 大数据作为当今的热点技术,受到了各行各业的广泛关注。为了进一步认识大数据,本文从大数据的基础、大数据的起源和发展现状、大数据的处理流程、大数据的应用、大数据面临的挑战、大数据未来展望六个方面对大数据进行了综合性描述。其中大数据基础包括大数据和传统数据库的概念和区别、大数据的特性,处理流程包括数据生成和获取、数据预处理、数据存储、数据分析挖掘。本文是大数据的系统性综述,可以对初次接触大数据的学者建立了良好的知识体系。

大数据文献综述

信息资源管理文献综述题目:大数据背景下的信息资源管理 系别:信息与工程学院 班级:2015级信本1班 姓名: 学号:1506101015 任课教师: 2017年6月

大数据背景下的信息资源管理 摘要:随着网络信息化时代的日益普遍,我们正处在一个数据爆炸性增长的“大数据”时代,在我们的各个方面都产生了深远的影响。大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力就是大数据技术,这也是一个企业所需要必备的技术。“大数据”一词越来越地别提及与使用,我们用它来描述和定义信息爆炸时代产生的海量数据。就拿百度地图来说,我们在享受它带来的便利的同时,无偿的贡献了我们的“行踪”,比如说我们的上班地点,我们的家庭住址,甚至是我们的出行方式他们也可以知道,但我们不得不接受这个现实,我们每个人在互联网进入大数据时代,都将是透明性的存在。各种数据都在迅速膨胀并变大,所以我们需要对这些数据进行有效的管理并加以合理的运用。 关键词:大数据信息资源管理与利用 目录 大数据概念 (3) 大数据定义 (3) 大数据来源 (3) 传统数据库和大数据的比较 (3) 大数据技术 (4) 大数据的存储与管理 (4)

大数据隐私与安全 (5) 大数据在信息管理层面的应用 (6) 大数据在宏观信息管理层面的应用 (6) 大数据在中观信息管理层面的应用 (7) 大数据在微观信息管理层面的应用 (8) 大数据背景下我国信息资源管理现状分析 (9) 前言:大数据泛指大规模、超大规模的数据集,因可从中挖掘出有价值 的信息而倍受关注,但传统方法无法进行有效分析和处理.《华尔街日 报》将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的大技术变革.“世界经济论坛”报告指出大数据为新财富,价值堪比石油.因此,目前世界各国纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要举措. 当前大数据分析者面临的主要问题有:数据日趋庞大,无论是入库和查询,都出现性能瓶颈;用户的应用和分析结果呈整合趋势,对实时性和响应时间要求越来越高;使用的模型越来越复杂,计算量指数级上升;传统技能和处理方法无法应对大数据挑战. 正文:

工业大数据分析综述:模型与算法

摘要:随着条形码、二维码、RFID、工业传感器、自动控制系统、工业互联网、ERP、CAD/CAM/CAE等信息技术在工业领域的广泛应用,大量与工业生产活动相关的数据被实时采集并存储到企业的信息系统中。对这些数据进行分析,有助于改进生产工艺、提高生产效率、降低生产成本,为实现智能制造奠定基础。因此,工业大数据分析引起了工业界和学术界的广泛关注。模型和算法是大数据分析理论和技术中的两个核心问题。介绍了工业大数据分析的基本概念,综述了几种流行的工业大数据分析模型在工业大数据分析领域的应用情况以及相应求解算法方面的研究成果,并探索了大数据分析模型和算法的未来研究方向。 关键词:工业大数据; 大数据分析; 模型; 算法; 智能制造 1 引言 当今时代,信息化和工业化的融合已经成为发展趋势,《中国制造2025》指出:“新一代信息技术与制造业深度融合,正在引发影响深远的产业变革,形成新的生产方式、产业形态、商业模式和经济增长点”。工业大数据在两化融合过程中起着至关重要的作用,国务院颁发的《促进大数据发展行动纲要》把发展工业大数据列为主要任务之一:“推动大数据在工业研发设计、生产制造、经营管理、市场营销、售后服务等产品全生命周期、产业链全流程各环节的应用,分析感知用户需求,提升产品附加价值,打造智能工厂。建立面向不同行业、不同环节的工业大数据资源聚合和分析应用平台”。工业大数据是指在工业领域中产生的大数据。随着信息化与工业化的深度融合,信息技术渗透到了工业企业产业链的各个环节,条形码、二维码、射频识别(radio frequency identification,RFID)、工业传感器、工业自动控制系统、工业互联网、企业资源计划(enterprise resource planning,ERP)、计算机辅助设计(computer

大数据文献综述

信息资源管理文献综述题目:大数据背景下的信息资源管理系别:信息与工程学院 班级:2015级信本1班 姓名: 学号:1506101015 任课教师: 2017年6月

大数据背景下的信息资源管理 摘要:随着网络信息化时代的日益普遍,我们正处在一个数据爆炸性增长的“大数据”时代,在我们的各个方面都产生了深远的影响。大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力就是大数据技术,这也是一个企业所需要必备的技术。“大数据”一词越来越地别提及与使用,我们用它来描述和定义信息爆炸时代产生的海量数据。就拿百度地图来说,我们在享受它带来的便利的同时,无偿的贡献了我们的“行踪”,比如说我们的上班地点,我们的家庭住址,甚至是我们的出行方式他们也可以知道,但我们不得不接受这个现实,我们每个人在互联网进入大数据时代,都将是透明性的存在。各种数据都在迅速膨胀并变大,所以我们需要对这些数据进行有效的管理并加以合理的运用。 关键词:大数据信息资源管理与利用 目录 大数据概念 (2) 大数据定义 (2) 大数据来源 (2) 传统数据库和大数据的比较 (3) 大数据技术 (3) 大数据的存储与管理 (4) 大数据隐私与安全 (4) 大数据在信息管理层面的应用 (5) 大数据在宏观信息管理层面的应用 (5) 大数据在中观信息管理层面的应用 (6) 大数据在微观信息管理层面的应用 (7) 大数据背景下我国信息资源管理现状分析 (8)

前言:大数据泛指大规模、超大规模的数据集,因可从中挖掘出有价值 的信息而倍受关注,但传统方法无法进行有效分析和处理.《华尔街日 报》将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的 大技术变革.“世界经济论坛”报告指出大数据为新财富,价值堪比 石油.因此,目前世界各国纷纷将开发利用大数据作为夺取新一轮竞 争制高点的重要举措. 当前大数据分析者面临的主要问题有:数据日趋庞大,无论是入 库和查询,都出现性能瓶颈;用户的应用和分析结果呈整合趋势,对 实时性和响应时间要求越来越高;使用的模型越来越复杂,计算量指 数级上升;传统技能和处理方法无法应对大数据挑战. 正文: 大数据概念 大数据定义 维基百科对大数据的定义则简单明了:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。也就是说大数据是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理 大数据来源 1)来自人类活动:人们通过社会网络、互联网、健康、金融、经济、交通等活动过程所产生的各类数据,包括微博、病人医疗记录、文字、图形、视频等

大数据外文翻译参考文献综述

大数据外文翻译参考文献综述 (文档含中英文对照即英文原文和中文翻译) 原文: Data Mining and Data Publishing Data mining is the extraction of vast interesting patterns or knowledge from huge amount of data. The initial idea of privacy-preserving data mining PPDM was to extend traditional data mining techniques to work with the data modified to mask sensitive information. The key issues were how to modify the data and how to recover the data mining result from the modified data. Privacy-preserving data mining considers the problem of running data mining algorithms on confidential data that is not supposed to be revealed even to the party

running the algorithm. In contrast, privacy-preserving data publishing (PPDP) may not necessarily be tied to a specific data mining task, and the data mining task may be unknown at the time of data publishing. PPDP studies how to transform raw data into a version that is immunized against privacy attacks but that still supports effective data mining tasks. Privacy-preserving for both data mining (PPDM) and data publishing (PPDP) has become increasingly popular because it allows sharing of privacy sensitive data for analysis purposes. One well studied approach is the k-anonymity model [1] which in turn led to other models such as confidence bounding, l-diversity, t-closeness, (α,k)-anonymity, etc. In particular, all known mechanisms try to minimize information loss and such an attempt provides a loophole for attacks. The aim of this paper is to present a survey for most of the common attacks techniques for anonymization-based PPDM & PPDP and explain their effects on Data Privacy. Although data mining is potentially useful, many data holders are reluctant to provide their data for data mining for the fear of violating individual privacy. In recent years, study has been made to ensure that the sensitive information of individuals cannot be identified easily. Anonymity Models, k-anonymization techniques have been the focus of intense research in the last few years. In order to ensure anonymization of data while at the same time minimizing the information

大数据应用分析案例分析

大数据应用与案例分析 当下,”大数据”几乎是每个IT人都在谈论的一个词汇,不单单是时代发展的趋势,也是革命技术的创新。大数据对于行业的用户也越来越重要。掌握了核心数据,不单单可以进行智能化的决策,还可以在竞争激烈的行业当中脱颖而出,所以对于大数据的战略布局让越来越多的企业引起了重视,并重新定义了自己的在行业的核心竞争。 在当前的互联网领域,大数据的应用已十分广泛,尤其以企业为主,企业成为大数据应用的主体。大数据真能改变企业的运作方式吗?答案毋庸置疑是肯定的。随着企业开始利用大数据,我们每天都会看到大数据新的奇妙的应用,帮助人们真正从中获益。大数据的应用已广泛深入我们生活的方方面面,涵盖医疗、交通、金融、教育、体育、零售等各行各业。 大数据应用的关键,也是其必要条件,就在于"IT"与"经营"的融合,当然,这里的经营的内涵可以非常广泛,小至一个零售门店的经营,大至一个城市的经营。以下是关于各行各业,不同的组织机构在大数据方面的应用的案例,并在此基础上作简单的梳理和分类。 一、大数据应用案例之:医疗行业 Seton Healthcare是采用IBM最新沃森技术医疗保健内容分析预测的首个客户。该技术允许企业找到大量病人相关的临床医疗信息,

通过大数据处理,更好地分析病人的信息。在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数据读取。通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折。 它让更多的创业者更方便地开发产品,比如通过社交网络来收集数据的健康类App。也许未来数年后,它们搜集的数据能让医生给你的诊断变得更为精确,比方说不是通用的成人每日三次一次一片,而是检测到你的血液中药剂已经代谢完成会自动提醒你再次服药。 二、大数据应用案例之:能源行业 智能电网现在欧洲已经做到了终端,也就是所谓的智能电表。在德国,为了鼓励利用太阳能,会在家庭安装太阳能,除了卖电给你,当你的太阳能有多余电的时候还可以买回来。通过电网收集每隔五分钟或十分钟收集一次数据,收集来的这些数据可以用来预测客户的用电习惯等,从而推断出在未来2~3个月时间里,整个电网大概需要多少电。有了这个预测后,就可以向发电或者供电企业购买一定数量的电。因为电有点像期货一样,如果提前买就会比较便宜,买现货就比较贵。通过这个预测后,可以降低采购成本。 维斯塔斯风力系统,依靠的是BigInsights软件和IBM超级计算机,然后对气象数据进行分析,找出安装风力涡轮机和整个风电场最佳的地点。利用大数据,以往需要数周的分析工作,现在仅需要不足1小时便可完成。

人文社科大数据研究现状综述

人文社科大数据研究现状综述 前言 数据的历史与人类的历史一样久长。步入现代社会以来,伴随信息载体、种类和数量的增多,数据种类越来越丰富,数字、文字、图像、音频、视频等也都是数据。通过数据来研究规律、发现规律,贯穿了人类社会发展的始终。不仅人类自然科学发展史上的不少进步都和数据采集分析直接相关,而且人文社会科学的发展也始终离不开数据。自20世纪后期以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发社会全面变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息总量的变化还导致了信息形态的变化——量变引起了质变。大数据正产生于这一大的历史背景下。 大数据就是囊括了包括各方面信息的一个庞大的数据总和,其最核心的价值在于对海量数据进行存储和分析,并实现预测某一事物发展的趋向。相比起现有的其他技术而言,大数据的廉价、迅速、优化这三方面的综合成本是最低的。大数据最重要的是如何使用,最大的挑战在于哪些领域能更好地使用数据及大数据的应用情况如何。人文社科包含人文科学和社会科学,是一个非常广泛的领域,大数据逐渐成为其研究热点,尤其是在农业、医疗、金融、社会管理等方面得到了很好的应用,为社会的发展提供了很大的帮助。 工业革命以后,以文字为载体的信息量大约每十年翻一番;1970 年以后,信息量大约每三年就翻一番。到如今,全球信息总量每两年就可以翻一番。著名管理咨询公司麦肯锡称:“数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于大数据的挖掘和运用,预示着新一波生产力增长和消费盈余浪潮的到来。”大数据无时无刻都在影响着我们的日常生活、国民经济、社会发展,受到社会各界的关注,如何利用这些海量数据去解决社会生活中的问题,已经成为当前研究的热点。人文社科领域重在研究并阐述各种社会现象及其发展规律,随着现实社会中数据量的剧增,比如社会化媒体,包括微信、微博、网站等,已经渗透到人们生活的各个领域,开放的群体通信和群体互动已经成社会生活的重要组成部分。人文社科领域原有的研究方法已经无法有效地处理这些数据。在过去,人文社科领域的研究常常采取抽样问卷调查、座谈、访谈等方法采集数据。然而,再好、再合理的抽样方法,反映的总是对局部和部分人群、阶层的研究结果,随机偶然性较大,准确性欠佳。如今,大数据处理技术为其提供了新的思想和方法。通过各个平台或网站的并联进行进一步分析,开展思想动态研究、行为方式分析、生活方式探索,发展趋势预测,乃至可以替代传统意义上的问卷调查而进行大规模的数据分析。通过大数据的这些相关技术挖掘社会化数据中隐藏的信息,揭示社会现象并为社会问题提供可靠的解决方案,解决了人文社科领域传统方法无法有效处理的问题。随着大数据研究的发展,大数据在人文社科领域已经有了很多较为典型的应用,特别是在农业、医疗、金融、社会管理等行业。 大数据是知识经济时代的战略高地,是国家和全球的新型战略资源。作为思维的革命性创新,大数据为科学研究带来了新的方法论。习近平总书记在谈到如何繁荣发展中国特色哲学社会科学时,要求我们善于“运用互联网和大数据技术,加强哲学社会科学图书文献、网络、数据库等基础设施和信息化建设”,这为信息化时代的人文社会科学研究的方式变革与理论创新指出了正确的方向。大数据正在成为当前中国社会快速信息化的最重要表征之一。我们应当深刻认识大数据及其对人文社会科学研究所

大数据的国内外研究现状与发展动态分析报告

大数据的国内外研究现状及发展动态分析大数据的概念 产生的背景与意义 上世纪60年代到80年代早期,企业在大型机上部署财务、银行等关键应用系统,存储 介质包括磁盘、磁带、光盘等。尽管当时人们称其为大数据,但以今日的数据量来看,这些数据无疑是非常有限的。随着PC的出现和应用增多,企业内部出现了很多以公文档为主要形式的数据,包括Word、Excel文档,以及后来出现的图片、图像、影像和音频等。此时企业内部生产数据的已不仅是企业的财务人员,还包括大量的办公人员,这极大地促进了数据 量的增长。互联网的兴起则促成了数据量的第三次大规模增长,在互联网的时代,几乎全民 都在制造数据。而与此同时,数据的形式也极其丰富,既有社交网络、多媒体等应用所主动 产生的数据,也有搜索引擎、网页浏览等被动行为过程中被记录、搜集的数据。时至今日,随着移动互联网、物联网、云计算应用的进一步丰富,数据已呈指数级的增长,企业所处理的数据已经达到PB级,而全球每年所产生的数据量更是到了惊人的ZB级。在数据的这种 爆炸式增长的背景下,“大数据”的概念逐渐在科技界、学术界、产业界引起热议。在大数据时代,我们分析的数据因为“大”,摆脱了传统对随机采样的依赖,而是面对全体数据;因为所有信息都是“数”,可以不再纠结具体数据的精确度,而是坦然面对信息的混杂;信息之“大”之“杂”,让我们分析的“据”也由传统的因果关系变为相关关系。 大数据热潮的掀起让中国期待“弯道超越”的机会,创造中国IT企业从在红海领域苦 苦挣扎转向在蓝海领域奋起直追的战略机遇。传统IT行业对于底层设备、基础技术的要求 非常高,企业在起点落后的情况下始终疲于追赶。每当企业在耗费大量人力、物力、财力取 得技术突破时,IT革命早已将核心设备或元件推进至下一阶段。这种一步落后、处处受制于人的状态在大数据时代有望得到改变。大数据对于硬件基础设施的要求相对较低,不会受困于基础设备核心元件的相对落后。与在传统数据库操作层面的技术差距相比,大数据分析应用的中外技术差距要小得多。而且,美国等传统IT强国的大数据战略也都处于摸着石头 过河的试错阶段。中国市场的规模之大也为这一产业发展提供了大空间、大平台。大数据对 于中国企业不仅仅是信息技术的更新,更是企业发展战略的变革。随着对大数据的获取、处 理、管理等各个角度研究的开展,企业逐渐认识数据已经逐渐演变成“数据资产”。任何硬件、软件及服务都会随着技术发展和需求变化逐渐被淘汰,只有数据才具有长期可用性,值得积累。数据是企业的核心资产,可以是也应该是独立于软硬件系统及应用需求而存在的。 大数据是信息技术演化的最新产物,确立了数据这一信息技术元素的独立地位。正因为数据不再是软硬件及应用的附属产物,才有了今天爆炸式的数据增长,从而奠定了大数据的基础。

大数据云计算文献综述

大数据云计算文献综述 一个大数据的调查 摘要:在这篇论文中,我们将回顾大数据的背景以及当前发展状况。我们首先介绍大数据的一般应用背景以及回顾涉及到的技术,例如:云计算、物联网、数据中心,以及Hadoop。接下来我们着重大数据价值链的四个阶段,也就是:数据生成,数据采集,数据存储和数据分析。对于每个阶段,我们介绍应用背景,讨论技术难题以及回顾最新技术。最后,我们介绍几个大数据的代表性应用,包括企业管理,物联网,在线社交网络,媒体应用,集成智慧,以及智能电网。这些讨论旨在提供一个全面的概述以及对读者感兴趣的领域的蓝图。这个调查包括了对开放问题和未来方向的讨论。 关键字大数据云计算物联网数据中心Hadoop 智能电网大数据分析 1、背景 1.1大数据时代的曙光 在过去的二十年,数据在各种各样的领域内爆炸式增长。按照2011年来自国际数据公司(IDC)的报告,世界上总共的创建及复制的数据量达到1.8zb,在五年内增长了大约九倍[1]。在未来这个数字至少每两年增加一倍。在全球数据的爆炸增长下,大数据这个词主要来描述巨大的数据集。与传统的数据集相比,大数据通常包括非结构化数据,这需要更实时的分析。 另外,大数据也能在发现新价值上带来新优势,帮助我们帮助我们获得一个深入隐藏价值的认识,也导致新挑战,例如,如何有效地组织和管理这样的数据集。

近日,行业产生兴趣的大数据的高潜力,许多政府机构公布主要计划加快大数据的研究和应用[2]。此外,大数据问题往往覆盖在公共媒体,如经济学[3,4],纽约时报[5],和全国公共广播电台[6,7]。这两个主要的科学期刊,Nature和Science,还开通了专栏讨论大数据的挑战和影响[8,9]。大数据的时代已经到来超越一切质疑[10]。 目前,与互联网公司的业务相关联的大数据快速增长。例如,谷歌处理的数据达数百拍字节(PB),Facebook的生成日志数据每月有超过10 PB,百度一家中国公司百度,业务流程有数十PB的数据,而阿里巴巴的子公司淘宝每天的网上交易产生几十太字节(TB)的数据。图1示出的全球数据量的热潮。当大型数据集的数量急剧上升,它也带来了许多具有挑战性的问题,解决方案如下: 图一、持续增长的数据 信息技术的最新发展(IT)使其更容易以产生数据。例如,每分钟有平均72个小时的视频上传到YouTube[11]。因此,我们面临的主要挑战是从广泛分布的数据源中收集和整合大量的数据。 云计算和物联网(IOT)的快速发展进一步促进数据的大幅增长。云计算提供了安全措施,访问网站以及数据资产的渠道。在物联网的典范,遍布世界各地的传感器正在收集和传送数据到云端进行存储和处理。这样的数据在数量和相互关系将远远超过对IT架构和现有企业的基础设施的能力,以及它的实时要求也将极大地强调可用的计算能力。日益增长的数据造成怎样在当前硬件和软件的基础上存储和管理如此庞大的异构数据集的问题。

大数据研究综述

大数据研究综述

————————————————————————————————作者:————————————————————————————————日期: ?

大数据研究综述 摘要:从大数据基本理论,大数据存储与分析处理技术和大数据应用研究三个角度说明当前研究热点,重点比较当前大数据处理工具的优缺点,并深入归纳总结了基于数据存储大数据处理技术,对未来研究进行展望。 关键词:大数据,综述,数据处理,数据挖掘 引言 现代社会提到大数据大家都知道这是近几年才形成的对于数据相关的新名词,在1980年,,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。在20 世纪 80年代我国已经有一些专家学者谈到了海量数据的加工和管理,但是由于计算机技术和网络技术的限制大数据未能引起足够的重视,它蕴藏的巨大信息资源也暂时隐藏了起来。随着云计算技术的发展,互联网的应用越来越广泛,以微博和博客为代表的新型社交网络的出现和快速发展,以及以智能手机、平板电脑为代表的新型移动设备的出现,计算机应用产生的数据量呈现了爆炸性增长的趋势。2012年末出版的《大数据时代》的作者英国牛津大学网络学院互联网研究所治理与监管专业教授维克托·尔耶·舍恩伯格在书的引言中说,大数据正在改变人们的生活以及理解世界的方式, 而更多的改变正蓄势待发。美国总统奥巴马的成功竞选及连任的背后都有大数据挖掘的支撑,美国政府认为,大数据是“未来的新石油”,并将对大数据的研究上升为国家意志,这对未来的科技与经济发展必将带来深远影响[1]。如今,大数据已成为一项业务上优先考虑的工作任务,因为它能够对全球整合经济时代的商务产生深远的影响。大数据的应用范围如此广泛,与大数据相关的很多问题都引起了专家和学者的重视。大数据最基本的问题-大数据的定义目前还没有一个统一的定论,但大数据作为一种基础性资源需要被处理才能显现其潜在的价值,那么如何更好地处理大数据这种基础性资源就显得特别重要,因为这些问题都关系到大数据核心价值的体现。为此,本文从大数据若干个版本的概念出发,调查分析了大数据的研究和应用现状,重点分析了当前主流的大数据处理工具和技术,最后预测了大数据未来

大数据技术研究综述

大数据技术研究综述 摘要:大数据是继云计算、物联网之后IT 产业又一次颠覆性的技术革命。文中介绍了大数据的概念、典型的4“V”特征以及大数据的关键技术,归纳总结了大数据处理的一般流程,针对其中的关键技术,如MapReduce、GFS、Hadoop以及NoSQL等,介绍了基本的情况。最后,本文对大数据时代做了总结与展望。 关键词:大数据;数据处理技术;云计算

当人们还在津津乐道云计算、物联网等主题时,一个崭新的概念——大数据横空出世。大数据是继云计算、物联网之后IT产业又一次颠覆性的技术革命,对国家治理模式、企业决策、组织和业务流程,以及个人生活方式等都将产生巨大的影响。大数据的挖掘和应用可创造出超万亿美元的价值,将是未来IT 领域最大的市场机遇之一,其作用堪称又一次工业革命[1]。 我们身处数据的海洋,几乎所有事物都与数据有关,环境、金融、医疗……我们每天都在产生数据,打电话、发短信、进地铁站安检、进办公楼刷卡、在QQ 上聊天、上淘宝网购物……大量数据实时地影响我们的工作、生活乃至社会发展。数据成为与自然资源、人力资源同样重要的战略资源,引起了科技界和企业界的高度重视。 1大数据的概念 大数据本身就是一个很抽象的概念,提及大数据很多人也只能从数据量上去感知大数据的规模,如:百度每天大约要处理几十PB 的数据;Facebook 每天生成300 TB以上的日志数据;据著名咨询公司IDC 的统计,2011年全球被创建和复制的数据总量为1.8 ZB(1021) ,但仅仅是数据量并不能区分大数据与传统的海量数据的区别。在2008年《Science》杂志出版的专刊中,大数据被定义为“代表着人类认知过程的进步,数据集的规模是无法在可容忍的时间内用目前的技术、方法和理论去获取、管理、处理的数据”[2]。 大数据不是一种新技术,也不是一种新产品,而是一种新现象,是近来研究的一个技术热点。大数据具有以下4个特点,即4个“V”: (1) 数据体量(V olumes) 巨大。大型数据集,从TB级别,跃升到PB级别。 (2) 数据类别(Variety) 繁多。数据来自多种数据源,数据种类和格式冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。 (3) 价值(Value) 密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅一两秒钟。 (4) 处理速度(Velocity) 快。包含大量在线或实时数据分析处理的需求,1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。

相关主题