搜档网
当前位置:搜档网 › 大数据(BigData)科学问题研究

大数据(BigData)科学问题研究

大数据(BigData)科学问题研究
大数据(BigData)科学问题研究

973计划信息领域战略调研材料之三

大数据(Big Data)科学问题研究

李国杰

1、前言

1.1 什么是大数据?

大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合(维基百科定义)

用传统算法和数据库系统可以处理的海量数据不算“大数据”。

大数据= “海量数据”+“复杂类型的数据”

大数据的特性包括4个“V”: Volume,Variety,Velocity,Value

●数据量大:目前一般认为PB级以上数据看成是大数据;

●种类多:包括文档、视频、图片、音频、数据库数据等;

●速度快:数据生产速度很快,要求数据处理和I/O速度很快;

●价值大:对国民经济和社会发展有重大影响。

1.2目前大数据的规模

工业革命以后,以文字为载体的信息量大约每十年翻一番;1970年以后,信息量大约每三年就翻一番;如今,全球信息总量每两年就可以翻一番。2011年全球被创建和被复制的数据总量为1.8ZB (1021),其中 75%来自于个人。IDC认为,到下一个十年(2020年),全球所有IT部门拥有服务器的总量将会比现在多出10倍,所管理的数据将会比现在多出50倍。根据麦肯锡全球研究院(MGI)预测,到2020年,全球数据使用量预计将暴增44倍,达到35ZB(1ZB=1021Byte)。医疗卫生、地理信息、电子商务、影视娱乐、科学研究等行业,每天也都在创造着大量的数据。数据采集成本的下降推动了数据量的剧增,新的数据源和数据采集技术的出现大大增加了数据的类型,数据

类型的增加导致数据空间维度增加,极大地增加了大数据的复杂度。

1.3大数据公司的现状:

●Google 公司通过大规模集群和MapReduce 软件,每个月处理

的数据量超过400PB。

●百度的数据量:数百PB,每天大约要处理几十PB数据,大多

要实时处理,如微博、团购、秒杀。

●Facebook:注册用户超过8.5亿,每月上传10亿照片,每天生

成300TB日志数据

●淘宝网:有3.7亿会员,在线商品8.8亿,每天交易数千万,

产生约20TB数据。

●Yahoo!的数据量:Hadoop云计算平台有34个集群,超过3万

台机器,总存储容量超过100PB。

1.4 网络大数据的特点

(1)多源异构:描述同一主题的数据由不同的用户、不同的网站产生。网络数据有多种不同的呈现形式,如音视频、图片、文本等,导致网络数据格式上的异构性。

(2)交互性:不同于测量和传感获取的大规模科学数据,微博等社交网络兴起导至大量网络数据具有很强的交互性。

(3)时效性:在网络平台上,每时每刻都有大量新的网络数据发布,网络信息内容不断变化,导致了信息传播的时序相关性。(4)社会性:网络上用户根据自己的需要和喜好发布、回复或转发信息,因而网络数据成了对社会状态的直接反映。

(5)突发性:有些信息在传播过程中会在短时间内引起大量新的网络数据与信息的产生,并使相关的网络用户形成网络群体,体现出网络大数据以及网络群体的突发特性。

(6)高噪声:网络数据来自于众多不同的网络用户,具有很高的噪声。

2、国家重大战略需求

数据已成为与自然资源、人力资源一样重要的战略资源,隐含巨大的价值,已引起科技界和和企业界的高度重视。如果我们能够有效地组织和使用大数据,人们将得到更多的机会发挥科学技术对社会发展的巨大推动作用,孕育着前所未有的机遇。O'Reilly公司断言:“数据是下一个‘Intel Inside’,未来属于将数据转换成产品的公司和人们。”

过去几十年,我们一直大力发展信息科学技术和产业,但主要的工作是电子化和数字化。现在,数据为王的大数据时代已经到来,战略需求正在发生重大转变:关注的重点落在数据(信息)上,计算机行业要转变为真正的信息行业,从追求计算速度转变为大数据处理能力,软件也从编程为主转变为以数据为中心。

实验发现、理论预测和计算机模拟是目前广泛采用三大科研范式。现在,数据密集型研究已成为科研的第四范式。不论是基因组学、蛋白组学研究,天体物理研究还是脑科学研究都是以数据为中心的研究。用电子显微镜重建大脑中所有的突触网络,1mm3大脑的图像数据就超过1PB。取之不尽的实验数据是科学新发现的源泉。

大数据分析技术不仅是促进基础科学发展的强大杠杆,也是许多行业技术进步和企业发展的推动力。大数据的真正意义并不在于大带宽和大存储,而在于对容量大且种类繁多的数据进行分析并从中萃取大价值。采用大数据处理方法,生物制药、新材料研制生产的流程会发生革命性的变化,可以通过数据处理能力极高的计算机并行处理,同时进行大批量的仿真比较和筛选,大大提高科研和生产效率。数据已成为矿物和化学元素一样的原始材料,未来可能形成“数据探矿”、“数据化学”等新学科和新工艺模式。大数据处理的兴起也将改变云计算的发展方向,云计算正在进入以AaaS(分析即服务)为主要标志的Cloud 2.0时代。

现有的数据中心技术很难满足大数据的需求,需要考虑对整个IT 架构进行革命性的重构。存储能力的增长远远赶不上数据的增长,设计最合理的分层存储架构已成为信息系统的关键,数据的移动已成为

信息系统最大的开销。信息系统需要从数据围着处理器转改变为处理能力围着数据转,将计算用于数据,而不是将数据用于计算。大数据也导致高可扩展性成为信息系统最本质的需求,并发执行(同时执行的线程)的规模要从现在的千万量级提高10亿级以上。

近十年来增长最快的是网络上传播的各种非结构化或半结构化的数据。网络数据的背后是相互联系的各种人群。网络大数据的处理能力直接关系到国家的信息空间安全和社会稳定。未来国家层面的竞争力将部分体现为一国拥有数据的规模、活性以及解释、运用数据的能力。国家的数字主权体现在对数据的占有和控制。数字主权将是继边防、海防、空防之后,另一个大国博弈的空间。从心理学、经济学、信息科学等不同学科领域共同探讨网络数据的产生、扩散、涌现的基本规律,是建立安全和谐的网络环境的重大战略需求,是促使国家长治久安的大事。

3、国内外研究动向与基础

3.1 科研“第四范式”

60年前, 数字计算机使得信息可读;20年前,Internet使得信息可获得;10年前,搜索引擎爬虫将互联网变成一个数据库;现在,Google 及类似公司处理海量语料库如同一个人类社会实验室。数据量的指数级增长不但改变了人们的生活方式、企业的运营模式,而且改变了科研范式。

2007年,已故的图灵奖得主吉姆?格雷(Jim Gray)在他最后一次演讲中描绘了数据密集型科研“第四范式”(the fourth paradigm)的愿景。2008年9月《Nature》杂志出版了一期专刊—“Big Data”,2011年2月,《Science》期刊联合其姊妹刊推出了一期关于数据处理的专刊—“Dealing with data”,从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面介绍了海量数据所带来的技术挑战。

将大数据科学从第三范式(计算机模拟)中分离出来单独作为一种科研范式,是因为其研究方式不同于基于数学模型的传统研究方式。Google公司的研究部主任Peter Norvig的一句名言可以概括两者的区别: "All models are wrong, and increasingly you can succeed without them"。 Petabyte级的数据使我们可以做到没有模型和假设就可以分析数据。将数据丢进巨大的计算机机群中,只要有相互关系的数据,统计分析算法可以发现过去的科学方法发现不了的新模式、新知识甚至新规律。实际上,Google的广告优化配置、战胜人类的IBM沃森问答系统都是这么实现的,这就是“第四范式”的魅力!

美国Wired杂志主编Chris Anderson 2008年曾发出“理论的终结(The End of Theory)”的惊人断言:“The Data Deluge Makes the Scientific Method Obsolete”。他指出获得海量数据和处理这些数据的统计工具的可能性提供了理解世界的一条完整的新途径。Petabytes 让我们说:相互关系已经足够(Correlation is enough)。我们可以停止寻找模型,相互关系取代了因果关系,没有具有一致性的模型、统一的理论和任何机械式的说明,科学也可以进步。

Chris Anderson 的极端看法并没有得到科学界的普遍认同,数据量的增加能否引起科研方法本质性的改变仍然是一个值得探讨的问题。对研究领域的深刻理解(如空气动力学方程用于风洞实验)和数据量的积累应该是一个迭代累进的过程。没有科学假设和模型就能发现新知识究竟有多大的普适性也需要实践来检验,我们需要思考:这类问题有多大的普遍性?这种优势是数据量特别大带来的还是问题本身有这种特性?只知道相互关系不知道因果关系会不会“知其然不知其所以然”。所谓从数据中获取知识要不要人的参与,人在机器自动学习和运行中应该扮演什么角色?有些领域可能先用第四范式,等领域知识逐步丰富了在过渡到第三范式。

3.2 21世纪的网络理论相当于20世纪的量子力学

还原论解构复杂系统,带给我们单个节点和链接的理论。网络理

论则反其道而行之,重新组装这些节点和链接,帮助我们重新看到整体。很可能数据的共性存在于数据背后的“网络”之中。网络有不少参数和性质,如聚集系数、核数等,这些性质和参数也许能刻画大数据背后的网络的共性。

发现Scale-Free网络的Albert-László Barabási教授在2012年1月的NATURE PHYSICS 上发表一篇重要文章The network takeover,文章认为:20世纪是量子力学的世纪,从电子学到天文物理学,从核能到量子计算,都离不开量子力学。而到了21世纪,网络理论正在成为量子力学的可尊敬的后继,正在构建一个新的理论和算法的框架。

3.3 美国政府启动“Big Data” 计划

2012年3月29日,美国政府启动“Big Data Research and Development Initiative”计划,6个部门拨款2亿美元,争取增加100倍的分析能力从各种语言的文本中抽取信息。这是一个标致性事件,说明继集成电路和互联网之后,大数据已成为信息科技关注的重点。在这个计划中,不同部门的侧重点并不一样。

3.3.1国防部高级研究计划局(DARPA)项目举例:

●多尺度异常检测项目解决大规模数据集的异常检测和特征化。

●网络内部威胁计划通过分析图像和非图像的传感器信息和其他

来源的信息,进行网络威胁的自动识别和非常规的战争行为。

●Machine Reading 项目旨在实现人工智能的应用和发展学习系

统,对自然文本进行知识插入。

●Mind‘s Eye 项目旨在建立一个更完整的视觉智能。

3.3.2能源部(DOE) 项目举例:

●从庞大的科学数据集中提取信息,发现其主要特征,并理解其

间的关系。研究领域包括机器学习,数据流的实时分析,非线性随机的数据缩减技术和可扩展的统计分析技术。

●生物和环境研究计划,大气辐射测量气候研究设施

●系统生物学知识库对微生物,植物和环境条件下的生物群落功

能的数据驱动的预测。

3.3.3国家人文基金会(NEH) 项目举例:

●分析大数据的变化对人文社会科学的影响,如数字化的书籍和

报纸数据库,从网络搜索,传感器和手机记录交易数据。

3.3.4美国国家科学基金会(NSF) 项目举例:

●推进大数据科学与工程的核心技术,旨在促进从大量、多样、

分散、异构的数据集中提取有用信息的核心技术。

●深入整合算法,机器和人,以解决大数据的研究挑战。

●开发一种以统一的理论框架为原则的统计方法,可伸缩的网络

模型算法,以区别适合随机性网络的方法

●形成一个独特的学科包括数学、统计基础和计算机算法。

●开放科学网格(OSG),使得全世界超过8000名的科学家合作进

行发现,包括寻找希格斯玻色子(“上帝粒子”,宇宙中所有物

质的质量之源)。

从以上项目简介中可以看出,美国政府的大数据计划目前最重视的是数据工程而不是数据科学,主要考虑大数据分析算法和系统的效率。但NSF的项目包含“统一的理论框架”和“形成一个独特的学科”等的科学目标。

4、重大科学问题

在讨论大数据带来的科学挑战问题之前,需要先阐述几句大数据面临的技术挑战问题,因为对大数据而言,技术走在科学前面。目前的局面是各个学科的科学家都以自己为主处理本领域的海量数据,信息领域的科学家只能起到助手的作用。也就是说,各领域的科学问题还掌握在各学科的科学家手里,计算机科学家并没有提炼出多少共性的大数据科学问题。技术上解决不了的问题越来越多,就会逐步凝练出共性的科学挑战问题。在条件还不成熟的时候,计算所科学家应虚心地甘当一段时期的“助手”。在网络大数据方面可能计算机学者的主动性会较早发挥出来。

4.1、需要重视的一些技术挑战问题

4.1.1高扩展性的数据分析技术

传统的关系数据库无法胜任大数据分析的任务,因为并行关系数据库系统的出发点是追求高度的数据一致性和容错性。根据CAP理论(Consistency, Availability, tolerance to network Partitions),在分布式系统中,一致性、可用性、分区容错性三者不可兼得, 因而并行关系数据库必然无法获得较强的扩展性和良好的系统可用性。系统的高扩展性是大数据分析最重要的需求,必须寻找高扩展性的数据分析技术。

以MapReduce 和Hadoop为代表的非关系数据分析技术,以其适合大规模并行处理、简单易用等突出优势,在互联网信息搜索和其他大数据分析领域取得重大进展,已成为目前大数据分析的主流技术。目前MapReduce 和Hadoop在一些应用的性能上还比不过关系数据库,还需要研究开发更有效、更实用的大数据分析和管理技术。

4.1.2新的数据表示方法

目前表示数据的方法,不一定能直观地展现出数据本身的意义。要想有效利用数据并挖掘其中的知识,必须找到最合适的数据表示方法。我们在一种不合适的数据表示中寻找大数据的固定模式、因果关系和关联时,可能已落入固有的偏见之中。

数据表示方法和最初的数据填写者有着密切关系。如果原始数据有必要的标识,就会大大减轻事后数据识别和分类的困难。但为标识数据给用户增添麻烦往往得不到用户认可。研究既有效又简易的数据表示方法是处理网络大数据必须解决的技术难题之一。

4.1.3 数据融合

大数据的挑战之一是对数据的整合,如果不整合则发挥不出大数据的大价值。网上数据尤其是流媒体数据的泛滥与数据格式太多有关。每个大企业都有自己不同数据格式,用户为了摆脱大企业的“绑定”,需要不断地做格式转换。格式繁多也给海量数据分析增加了许多工作量。

大数据面临的一个重要问题是个人、企业和跨部门的政府机构的各种数据和信息能否方便的融合。如同人类有许多种自然语言一样,

作为Cyberspace中唯一客观存在的数据难免有多种格式。但为了扫清网络大数据处理的障碍,应研究推广不与平台绑定的数据格式。

图像、语音、文字都有不同的数据格式,在大数据存储和处理中这三者的融合已成为一种趋势,有必要研究囊括各种数据的统一格式,简化大数据处理。大数据已成为联系人类社会、物理世界和赛博空间(Cyberspace) 的纽带,需要构建融合人、机、物三元世界的统一的信息系统。

4.2 大数据提出的科学挑战问题

4.2.1数据科学的重点是研究数据背后的关系网络

大数据科学面临的首要问题是“研究对象是什么”?许多学者说:计算机科学的关于算法的科学,数据科学是关于数据的科学。寻找新算法是有目标的研究,但当前数据科学的目标还不很明确。人们常比喻数据科学是“大海捞针”,“大海捞针”的前提是先知道有一枚“针”在海里,而海量数据的挖掘往往不知道有没有“针”。因此有学者比喻大数据研究是“大海捕鱼”,捕到什么鱼算什么鱼。

观察各种复杂系统得到的大数据,直接反映的往往是个体和个别链接的特性,反映相互关系的网络的整体特征隐藏在大数据中,国外不少学者认为数据科学的主要任务就是搞清楚数据背后的“关系网络”。因此大数据面临的科学问题本质上可能就是网络科学问题,复杂网络分析是数据科学的重要基石。

目前,研究Internet网络数据的学者以复杂网络上的数据(信息)传播机理、搜索、聚类、同步和控制作为主要研究方向。最新的研究成果表明,随机的scale-free 网络不是一般的“小世界”,而是“超小世界(ultrasmall world),规模为N的网络的最短路径的平均长度是lnlnN(不是一般小世界的lnN)。网络数据科学应发现网络数据与信息产生、传播、影响背后的社会学、心理学、经济学的机理以及网络信息涌现的内在机制,同时利用这些机理研究互联网对政治、经济、文化、教育、科研的影响。

过去几个世纪主宰科学研究的方法一直是“还原论”

(Reductionism), 将世界万物不断分解到最小的单元。作为一种科研范式已经快走到尽头。对单个人、单个基因、单个原子等了解越多,我们对整个社会、整个生命系统、物质系统的理解并没有增加很多,有时可能离理解系统的真谛更远。基于大数据对复杂社会系统进行整体性的研究,也许将为研究复杂系统提供新的途径。从这种意义上看,“网络数据科学”是从整体上研究复杂系统(社会)的一门科学。

云计算、物联网等信息技术的发展使得物理世界、信息世界和人类社会已融合成一个三元世界(the ternary human-cyber-physical universe) ,大数据是形成统一的三元世界的纽带。数据背后是网络,网络背后是人。研究数据网络实际上是研究人组成的社会网络。

4.2.2数据界(Data Nature)的共性科学问题是什么?

数据科学试图把数据当成一个“自然体”来研究,即所谓“数据界(data nature)”,也就是尝试把计算机科学划归为自然科学。但脱离各个领域的“物理世界”,作为客观事物间接存在形式的“数据界”究竟有什么共性问题还不清楚。物理世界在Cyberspace中有其数据映像,研究数据界的规律其实就是研究物理世界的规律(还需要在物理世界中测试验证),除去各个领域(天文、物理、生物、社会等)的规律,还有“数据界”共同的规律吗?数据库理论是一个很好的例子,在经历了层次数据库、网状数据库多年实践以后,Codd发现了数据库应用的共性规律,建立了有坚实理论基础的关系模型。在这之前人们也一直在问今天同样的问题。现在我要做的事就是提出像关系数据库这样的理论来指导海量非结构化Web数据的处理。

提炼“数据界”的共性科学问题还需要一段时间的实践积累,至少近五年内计算机界的学者还需要多花精力协助其他领域的学者解决大数据带来的技术挑战问题。通过分层次的不断抽象,大数据的共性科学问题才会逐步清晰明朗。

4.2.3大数据研究作为一种研究方法的特点

目前,大数据研究主要是作为一种研究方法或一种发现新知识的工具,不是把数据本身当成研究目标。作为一种研究方法,它与数据

挖掘、统计分析、搜索等人工智能方法有密切联系。

数据挖掘是目前数据分析的热门技术,金融、零售等企业已广泛采用数据挖掘技术分析用户的可信度和购物偏好等。大数据研究肯定要采用数据挖掘技术。但目前数据挖掘中急用先研的短期行为较多,多数是为某个具体问题研究应用技术,尚无统一的理论。传统的数据挖掘技术,在数据维度和规模增大时,所需资源指数级地增加,应对PB级以上的大数据还需研究新的方法。网络数据科学强调与社会科学的深度交叉融合,需要揭示社会科学领域的深层次机制和规律,只用传统的数据挖掘技术难以到达目的。

统计学是收集、分析、表述和解释数据的科学,从字面上看,似乎与大数据的研究范围一致。统计学的目标是从各种类型的数据中提取有价值的信息,给人后见之明(hindsight)或预见(foresight),但一般不强调对事物的洞察力(insight)。统计方法强烈依赖与结论有关的应用类型,网络数据常呈现重尾分布,使得方差等标准方法无效,长相依和不平稳性往往超出经典时间序列的基本假设。单用统计方法往往有能力的极限,例如只用统计机器翻译方法,翻译质量的提高就有限度。一种可能的途径是把其他方法和统计方法结合起来,采用多元化的方法来建立综合性模型。

传统AI(如机器学习)先通过在较小的数据样本集学习,验证分类、判定等“假设”和“模型”的适合性,再应用推广(Generalization)到更大的数据集。一般NlogN、N2级的学习算法复杂度可以接受。面对P级以上的海量数据,NlogN、N2级的学习算法难以接受,处理大数据需要更简单的人工智能算法和新的问题求解方法。

大数据研究不应该只是上述几种方法的集成,应该有不同于统计学和人工智能的本质内涵。大数据研究是一种交叉科学研究,如何体现其交叉学科的特点需要认真思考。

4.2.4如何变“大数据”为“小数据”

获取大数据本身不是我们的目的,能用“小数据”解决的问题绝不要故意增大数据量。当年开普勒发现行星三大定律,牛顿发现力学

三大定律现在看来都是基于小数据。我们也应从通过“小数据”获取知识的案例中得到启发,比如人脑就是小样本学习的典型。

2-3岁的小孩看少量图片就能正确区分马与狗、汽车与火车,似乎人类具有与生俱来的知识抽象能力。我们不能迷信大数据,从少量数据中如何高效抽取概念和知识是值得深入研究的方向。至少应明白解决某类问题,多大的数据量是合适的,不要盲目追求超额的数据。

数据无处不在,但许多数据是重复的或者没有价值,未来的任务主要不是获取越来来越多的数据,而是数据的去冗分类、去粗取精,从数据中挖掘知识。几百年来,科学研究一直在做“从薄到厚”的事情,把“小数据”变成“大数据”,现在要做的事情是“从厚到薄”,要把大数据变成小数据。

数据的分类可能是大数据研究的基本科学问题,如同分类在生物学的地位一样,各种各样的大数据如何按不同性质分类需要认真研究,分类清楚了,数据标识问题也就解决了,许多数据分析问题也会迎刃而解。

5、可能的原始创新

现在来预测我国在大数据研究上可能取得的原始创新可能为时尚早。但可以大致判断一下哪些领域可能取得原始性的贡献。

5.1 基因组学和蛋白组学研究

中国的基因测序能力世界领先,已占到全世界的一半。中国也有不少独特的基因资源,为开展基因组学研究提供了有利条件。但是,在提出新的基因测序原理和方法上,我国学者的贡献还不大,现在用的设备和测序软件几乎都是进口的。如果组织计算机和生物领域的学者密切合作,有可能在信息生物学的大数据研究方面做出原始性创新贡献。

5.2 Web网络大数据分析

Web网拥有最大的数据量,而且增长很快,是大数据分析最主要的领域。我国拥有世界上最多的网民和最大的访问量,在网络大数据分析方面已经有较强的基础,有可能做出世界领先的原始创新成果,

应加大网络大数据分析方面的研究力度。

5.3 大数据平台的创新

大数据研究需要的处理平台不同于高性能计算机,需要在体系结构和系统软件上进行原始性创新。我国的高性能计算机研制能力已进入世界三强(美、日、中),有能力在数据密集型计算机方面做出国际领先的原始创新。

5.2 中医和经络的大数据研究

中医中药,特别是经络学说是中华文化的宝贵遗产,但在经络原理的研究方面有落后于韩国的危险。能不能将中医包括经络研究数字化,将几千年的传统医学文献和大量的中医实践记录变成可用计算机分析的大数据,也许能走出一条新路,做出令全世界为之一震的原始创新成果,为中华文化争光。

6、对开展该方向研究的建议

6.1研究革命性的算法和处理平台结构

大数据研究不是简单地建一个数据中心,也不是使用传统方法在超级计算机上处理生物信息、脑科学、天文物理、遥感、气象等领域的海量数据,即使找到线性复杂性的算法也对付不了Peta级以上的数据(如用传统方法备份PB级数据就需要数月时间)。必须研究革命性的大数据处理系统结构和革命性的算法和软件,以应对数据指数级增长的挑战。

6.2选择“预言性数据分析问题”做研究

科学工程计算可分成三类:(a)基于唯象假设的增量式进步(计算规模大一点,结果就好一些)。采用这种研究模式即使问题规模再大也不可能变革一个学科。(b)无底洞式的计算—无论多大的计算能力都不可能解决问题,这类问题的基本的物理本质还不清楚,增加计算规模也无济于事。(c)变革式计算,只要计算能力足够强大,就可以彻底解决以前解决不了的问题。

大数据研究可能与科学工程计算有类似的分类。应用大数据方法

研究社会或其他问题,应考虑首先选择“预言性数据分析问题”,即当数据规模大到一定程度,就可以解决以前解决不了的问题,实现有关科学的“变革式”进步。

6.3 研究大数据的测量与感知理论,

大数据不是采集得越多越好,要在不明显增加采集成本的条件下尽可能提高数据的质量。要研究如何科学合理地抽样采集数据,减少不必要的数据采集。当前数据跨领域跨行业的拉通和共享仍存在大量壁垒,海量数据的收集,特别是关联领域的同时收集和处理存在很大挑战。只有跨领域的数据分析才更有可能形成真正的知识和智能,从而产生更大的价值。

6.4研究数据的去冗余和高效率低成本的数据存储

大数据中有大量的冗余,消除冗余是降低开销的重要途径。大数据的存储方式不仅影响效率也影响成本,需要研究高效率低成本的数据存储方式。需要研究多源多模态数据高质量获取与整合的理论技术、错误自动检测与修复的理论技术和低质量数据上的近似计算的理论和算法

6.5 研究适合不同行业的大数据挖掘分析工具和开发环境

不同行业需要不同的大数据分析工具和开发环境,应鼓励计算机算法研究人员与各领域的科研人员密切合作,在分析工具和开发环境上创新。对于网络上大数据,需要研究互联网信息价值及其社会效应的可计算性以及计算结果的社会性解释。

6.6研究大幅度降低数据处理、存储和通信能耗的新技术

大数据的处理、存储和通信都将消耗大量的能源,研究创新的节能技术是重要的基础研究方向。

6.7逐步深入地开展以数据内在共性为研究对象的数据科学研究

目前的数据挖掘主要依赖先进的工具,是工具依赖而不是数据依赖,需要研究隐藏在数据本身中规律和知识,当积累足够多的技术挑战和实践知识后,应适时开展有关data-nature方面的理论研究,争取总结出类似关系代数的大数据基础理论。还需要研究海量数据计算

的复杂性理论、海量数据计算的算法设计方法学、海数据管理的理论和算法等。

6.8 大力开展交叉科学研究

大数据研究是跨学科的研究,可以发展为一门新型交叉学科。这项研究不仅与自然科学有关,还涉及心理学、经济学、社会学等社会科学。探讨网络数据的产生、扩散的基本机制,就需要从社会、经济和技术层面探讨网络数据涌现的规律与价值度量方法。应积极鼓励开展交叉科学研究

6.9改变科研的组织结构和合作形式

开展数据密集型研究需要改变科研的组织结构和合作形式,形成有利于协作创新的“知识生态系统”,强调个人在单学科领域学术成就的“个人化科研范式”不再适合大数据研究,行会文化和过分细分的专业化教育是推广大数据研究的阻力。

数据科学与大数据技术专业解读与就业分析 高考政策数据救专业解析

数据科学院大数据技术专业解读与就业分析 什么是大数据? 进入互联网时代,中国的网民人数已超7亿,大数据的应用涉及到生活的方方面面。 例如,你在网站上买书,商家就会根据你的喜好和其他购书者的评价给你推荐另外的书籍;手机定位数据和交通数据可以帮助城市规划;甚至用户的搜索习惯和股市都有很大关系。 在谈到大数据的时候,人们往往知道的就是数据很大,但大数据≠大的数据。对外经济贸易大学信息学院副院长华迎教授介绍:“现在的大数据包括来自于多种渠道的多类数据,其中主要来源网络数据。数据分析不是新的,一直都有,但是为什么叫大数据呢?主要是因为网络数据的格式、体量、价值,都超出了传统数据的规模。对这些海量信息的采集、存储、分析、整合、控制而得到的数据就是大数据。大数据技术的意义不在于掌握庞大的数据信息,而在于对这些数据进行专业化处理,通过‘加工’实现数据的‘增值’,更好地辅助决策。”数据科学与大数据技术专业 本科专业中和大数据相对应的是“数据科学与大数据技术”专业,它是2015年教育部公布的新增专业。2016年3月公布的《高校本科专业备案和审批结果》中,北京大学、对外经济贸易大学和中南大学3所高校首批获批开设“数据科学与大数据技术”专业。随后 第二年又有32所高校获批“数据科学与大数据技术”专业。两次获批的名单中显示,该专业学制为四年,大部分为工学。 “数据科学与大数据技术是个交叉性很强的专业,很难说完全归属于哪个独立的学科。所以,不同的学校有的是信息学院申报,有的是计算机学院牵头申报,有的设在统计学院,还有的在经管学院。像北京大学这个专业是放在理学下,授予理学学位。大多数是设在工学计算机门类下,授予的是工学学位。”华迎教授说:“数据科学很早就存在,是个比较经典

数据科学与大数据技术 专业建设规划方案

数据科学与大数据技术----专业建设规划 方案 一、总体目标 本专业旨在培养具有良好的数学基础和逻辑思维能力,具备较高的信息素养,掌握计算机学科、大数据科学和信息技术的基本理论、方法与技能,受到系统的科学研究训练,具备一定的大数据科学研究能力及数据工程师岗位的基本能力与素质,掌握大数据工程项目的规划、应用和科学管理决策方法,具有大数据工程项目设计、研发和实施能力的高级复合、应用型卓越人才。毕业生能在国家各级财经政务部门、信息产业、工商企业、金融机构、科研院所等从事大数据分析、挖掘、处理、服务、应用和研究工作,亦可从事各行业大数据系统集成、设计开发、管理维护等各方面的工作,也适合去高等院校和科研院所的相关交叉学科继续深造,攻读硕士学位。 (一)人才培养目标 本专业围绕以培养面向大数据工程与信息技术行业的工程应用型人才为中心,突出“校企合作”的办学特色,强化工程应用实践,兼顾交叉学科专业基础知识,注重培养创新意识和创新实践能力,培养从事大数据项目设计开发、数据挖掘与分析、大数据综合应用的高级复合、创新型卓越人才。 (二)课程体系与学科建设 作为一个新专业,首先,需要考虑是否符合市场需求,要进行深入调研,了解地区对于大数据技术人才是否有一定的需求;其次,需要了解大数据技术岗位需要何种技能,把大数据技术人才需要掌握的技能弄清楚,列出岗位技能清单,将技能清单转化为课程清单,明确了大数据技术专业的人才培养定位和目标,细化了人才培养课程体系。 在教学过程中,不断凝练专业特色和发展方向,本专业在数据科学与大数据研究的基础上,通过数据分析与数据挖掘,逐步开展人工智能与数据推荐等领域的研究。 (三)学科队伍建设 由于大数据涵盖内容广泛,因此需要如下三类关键人才队伍建设: (1)实现大数据的技术支持人才,他们具有很强的编程能力,尤其表现在搭建数据存储、管理以及处理的平台方面; (2)精通处理大数据分析的人才; (3)大数据技术的应用类人才,以适应高校培养高素质人才的需要。 大数据技术需要复合型人才,不仅要具备扎实的基础知识,更需要有充足的实践经验。唯有如此,我们通过典型的算法展示、算法实现结合数据分析的应用场景与案例对学生进行数据分析方面的综合训练,从而实现专业实验教学由理论到应用、涵盖原理验证、综合应用及全方位实验的体系。因此,学校应根据不同类型的人才特点,结合现代企业对大数据人才的需求,以就业为导向,开展全方位立体式(专业拓展模块——技能考证模块——集中实践模块)大数据专业实践教学体系,培养理论与技能并重的大数据高素质人才。与此同时,还要开展职业技能考证培训,如数据挖掘工程师、数据分析工程师、大数据系统运维工程师等。为了适应专业建设的需要,必须实行内培外引的人才培养策略,将青年教师派驻企业学习是一种增强师资队伍实力比较快捷的方式,4年内你派出20余人次国内外高校、大数据企业进行短期进修培训和挂职锻炼,引进大数据相关专业教师4人(硕士研究生及以上,计算机、大数据等相关专业)。另外,还可以通过引进企业工程师作为学校兼职教师,充实教师队伍,4年内拟引进企业大数据工程师4人。 (四)实践平台与科学研究建设

数据科学与大数据技术专业培养方案

数据科学与大数据技术专业培养方案 2018年,我校数据科学与大数据专业将首次招生,招生规模预计为60人左右。该专业依托湖北大学与中科曙光共建的“大数据学院”,借助双方共同投入2000万构建的大数据专业实验室,与中科曙光联合开展人才培养。旨在培养具有大数据思维、运用大数据思维及分析应用技术、具有将领域知识与计算机技术和大数据技术融合、创新的能力,能够从事大数据研究和开发应用的高层次人才。本专业学生毕业后,能在统计部门、税务海关、公司企业以及金融保险机构等企事业单位从事大数据分析、大数据应用开发、大数据系统开发、大数据可视化以及大数据决策等工作,或继续攻读本学科及其相关学科的硕士学位研究生。 专业代码:080907 一、培养目标 本专业培养具有良好职业道德,具备系统的数学、人文与专业素养,较全面掌握数据科学专业方向所需的基本理论、基本方法和基本技术,具有较强的数据采集、存储、处理、分析与展示的基本能力,能够运用所学知识解决实际问题,具备较高的综合业务素质、创新与实践能力、以及良好外语运用能力。能在国家机关和企事业单位从事经济、金融、贸易、商务等行业从事大数据研究、大数据分析、大数据应用开发、大数据系统开发、大数据可视化以及大数据决策等工作,能开发基于大数据的新产品和新业务,推动大数据在相关行业的应用创新的应用型数据科学人才。 二、毕业要求 本专业培养掌握大数据科学与技术相关的基本理论和基本知识,系统地掌握数据科学与工程专业知识,具备大数据应用系统设计与开发的能力,以及一定的科研工作能力,达到知识、能力与素质的协调发展。 毕业生在知识、能力和素质等方面应达到如下具体要求: 1.工程知识:能够将数学、自然科学、数据科学与大数据技术基础知识用于解决复杂工程科学技术问题。 2. 问题分析:具有解决数据科学与大数据技术领域复杂工程问题所需的专业知识,具备对复杂工程项目问题进行科学识别和提炼、定义和表达、技术分析和测试及运维管理的能

数据科学与大数据技术专业人才培养方案

数据科学与大数据技术专业人才培养方案 (2018级) 一、专业基本情况 专业名称:数据科学与大数据技术专业代码:0080910T 学科门类:工学专业类:计算机类 二、业务培养目标 数据科学与大数据技术专业培养能服务于社会主义现代化建设需要的德、智、体、美全面发展,“基础厚、口径宽、能力强、素质高”的专门技术人才。所培养的人才应具有构建大数据平台和大数据分析处理方面的基础理论知识和技术综合应用能力,能从事大数据信息系统分析设计、开发和管理维护工作。 三、业务培养要求 数据科学与大数据技术专业,旨在培养具有大数据思维、运用大数据思维及分析应用技术的大数据人才。掌握计算机理论和大数据处理技术,从大数据应用的三个主要层面(即数据管理、系统开发、海量数据分析与挖掘)系统地培养学生掌握大数据应用中的各种典型问题的解决办法,学生将受到科学实验和科学思维的基本训练,使学生具有良好的科学素养,实际提升学生解决实际问题的能力,具有将领域知识与大数据技术融合、创新的能力,能够从事大数据研究和开发应用的人才。结合林业行业和其他行业的大数据应用典型案例,培养学生具有一定的林业和其他行业应用的大数据应用能力和背景。 四、毕业生应获得的知识和能力 1、具有坚实的自然科学基础,较好的人文、艺术、外语和社会科学基础知识。 2、具有数据科学与大数据技术专业的宽厚的理论知识和技术基础,主要包括构建大数据平台和大数据分析处理方面的基础理论知识和技术综合应用能力等。 3、具有创新意识和独立获取知识的能力。 4、通过本专业领域的工程实践训练,具有较强的分析问题、解决问题的能力及实践技能,具有从事与本专业有关的研究、设计、开发及组织管理的能力。 5、掌握资料查询、文献检索及运用现代信息技术获取相关信息的基本方法。 五、主干学科 数据科学与大数据技术、计算机科学与技术 六、主要课程 Python程序设计、高等数学、线性代数、概率论与数理统计、应用物理、算法设计与分析、数据科学导论、计算机网络原理、离散数学、操作系统与Linux应用、数据结构、数据库原理及应用、非关系数据库技术、数据采集与网络爬虫、大数据与云计算平台技术、大数据挖掘与分析技术、机器学习、林业大数据应用实践、深度学习及其应用、Web程序设计、数据可视化技术等。 七、学制与授予学位 学制:四年 授予学位:工学学士

2020最新数据科学与大数据技术专业大学排名

2020数据科学与大数据技术专业大学排名 数据科学与大数据技术专业介绍 数据科学与大数据技术,是2016年我国高校设置的本科专业,专业代码为080910T,学位授予门类为工学、理学,修业年限为四年,课程教学体系涵盖了大数据的发现、处理、运算、应用等核心理论与技术,旨在培养社会急需的具备大数据处理及分析能力的高级复合型人才。 开设概况: 2016年2月16日,教育部发布《教育部关于公布2015年度普通高等学校本科专业备案和审批结果的通知》(教高函〔2016〕2号),公布“2015年度普通高等学校本科专业备案和审批结果”的“新增审批本科专业名单”有新专业“数据科学与大数据技术”。 培养目标: 本专业旨在培养社会急需的具备大数据处理及分析能力的高级复合型人才。具体包括:掌握计算机科学、大数据科学与信息技术的基本理论、方法和技能,受到系统的科学研究训练,具备一定的大数据科学研究能力与数据工程实施的基本能力,掌握大数据工程项目的规划、应用、管理及决策方法,具有大数据工程项目设计、研发和实施能力的复合型、应用型卓越人才。 主要课程: 课程教学体系涵盖了大数据的发现、处理、运算、应用等核心理论与技术,具体课程包括:大数据概论、大数据存储与管理、大数据挖掘、机器学习、人工智能基础、Python程序设计、统计学习、神经网络与深度学习方法、多媒体信息处理、数据可视化技术、智能计算技术、分布式与并行计算、云计算与数据安全、数据库原理及应用、算法设计与分析、高级语言程序设计、优化理论与方法等。 就业方向 分析类岗位: 分析类工程师。使用统计模型、数据挖掘、机器学习及其他方法,进行数据清洗、数据分析、构建行业数据分析模型,为客户提供有价值的信息,满足客户需求。 算法工程师。大数据方向,和专业工程师一起从系统应用的角度,利用数据挖掘/统计学习的理论和方法解决实际问题;人工智能方向,根据人工智能产品

数据科学与大数据技术专业培养方案

数据科学与大数据技术专业培养方案 一、培养目标 本专业旨在培养思想品德好、专业素质高、实践能力强,掌握数据科学专业方向所需的基础理论和方法,具有经济、金融等相关行业知识背景,具备较强的数据收集、数据处理和数据分析的技术和能力的国际化应用型数据科学人才。 学生毕业后,能在国家机关和企事业单位从事经济、金融、贸易、商务等行业的大数据分析,能利用数据科学方法开展商务流通大数据应用、金融大数据应用,能开发基于大数据的新产品和新业务,推动大数据在相关行业的应用创新。 二、培养规格及标准 ⒈知识结构 本专业学生应具备以下几方面的知识: (1)通识教育知识:思想政治理论课、大学英语、大学语文、体育、哲学与社会、文学与艺术、科学与创新、数学思维与经济分析、文化历史与国际视野等; (2)基础知识:数据科学导论、数学分析、线性代数A、概率论A、数理统计、Python程序设计、计算机系统基础、C++程序设计、数据结构、数据库原理与设计等; (3)专业知识:大数据探索性分析、最优化方法、数据挖掘与机器学习、计算统计、应用回归分析、应用时间序列分析、应用多元统计分析、分布式计算、人工智能、自然语言处理、深度学习、文本挖掘、算法导论等; (4)相关专业知识:微观经济学、宏观经济学、计量经济学、国际金融、国际贸易、商务大数据案例分析、金融数据风险建模、运筹学、管理学、博弈论等; 具体课程设置详见本专业指导性教学计划。 ⒉能力 通过培养,学生应具备以下几方面的能力: (1)具有扎实的数据分析的理论基础和大数据技术,培养比较系统的大数据分析思维; (2)掌握数据科学的基本理论、基本方法和基本技术,具有大数据采集和数据挖掘的技术,具备解决涉及大数据问题的能力; (3)掌握系统的经济、金融等方面的行业知识,具有运用数据科学的理论、方法和技术分析相关领域实际问题的能力; (4)掌握英语,听、说、读、写、译能力均达到较高水平。具有较强的英语口语和书面交流能力,熟练运用专业英语能力。能阅读数据科学和大数据方面的专业外文文献,掌握中外文资料查询、文献检索及运用现代信息技术获取相关信息的基本方法,具有较强的自学能力和初步科研能力;

数据科学与大数据技术

数据科学与大数据技术 ——专业前身(管理科学)2017年江西省普通高校本科专业综合评价排名第一本专业面向工业大数据、商业大数据、金融大数据、政府政务大数据与智慧城市大数据等不同行业,培养学生具备扎实的数学与计算机科学基础、基于统计与优化的数据分析与建模能力、基于专业化行业知识的数据应用解决方案设计能力,未来能够立足工商企业、金融机构、政府部门等不同行业、具备较强可塑性的数据分析与管理决策人才。培养目标分为两个层次:(1)面向特定行业需求,从事数据采集、分析和建模工作,进而提供管理决策支持的数据分析师;(2)面向不同行业需求和数据现状,从事个性化的数据应用解决方案设计与实施工作,进而实现业务资源优化配置的数据科学家。毕业时颁发数据科学与大数据技术本科毕业证书,符合学位授予条件的,授予理学学士学位。 计算机科学与技术(财经大数据管理) —2016年江西省普通高校本科专业综合评价排名第二 本专业依托学校财经学科优势,强化学科交叉,采用“厚基础、重工程、深融通、精方向”的培养模式,培养既熟练掌握计算机软件与硬件、程序设计与算法、数据库与数据挖掘、系统分析与集成等方面的专业知识和能力,又熟悉财经领域的组织与运营模式、理解财经领域业务流程及业务逻辑,能胜任在银行、证券、保险等财经领域从事数据分析与解读、数据挖掘、产品运营策划与咨询、数据可视化、大数据管理、大数据系统和金融信息系统的开发、维护、决策支持等工作,具有“信、敏、廉、毅”素质的卓越工程应用型人才。毕业时颁发计算机科学与技术(财经大数据管理)本科毕业证书,符合学位授予条件的,授予工学学士学位。 信息管理与信息系统(金融智能)专业 ——2017年江西省普通高校本科专业综合评价排名第一 通过修读信息管理与信息系统、金融和人工智能相关课程,培养具有先进

数据科学与大数据技术专业培养方案

信息学院 数据科学与大数据技术专业培养方案 一、培养目标 本专业旨在培养德智体美全面发展,具备坚实的计算机专业基础知识,有较强的数理统计分析能力,掌握丰富的数据分析方法和工具,熟悉常见的大数据分析平台和环境,具有实践创新能力,能够从事经济、金融、管理、物流、商务等领域的数据分析工作,面向行业、产业需求培养应用型、复合型、国际化的综合素质人才。 二、专业要求 1.掌握计算机专业的基本理论和方法。 2.掌握经济贸易和金融管理的基本理论和方法。 3.具有扎实的数理统计与分析的基础。 4.具备较强的数据分析和数据建模的能力。 5.熟悉常见的大数据分析平台和环境,并具备较强的开发能力。 6.熟练掌握一门外语,在听、说、读、写、译等方面均达到较高水平。 三、学分要求 学生毕业所应取得的最低总学分为173学分,其中包括课程学分和实践教学学分。 1.课程学分为145学分

2.暑期学校课程 要求修读不少于2门暑期学校课程。 ⑴学生必须完成学校要求的实践教学环节,取得相应学分。 ⑵实践教学环节学时学分计算规则:社会实践50学时计1学分;专业实习30学时计1学分;毕业论文20学时计1学分。 ⑶学生在教师的指导下,完成毕业论文并通过论文答辩。 四、公共基础课程选修要求(专业入门课程) 五、主要课程1 1《对外经济贸易大学学士学位授予办法》学士学位授予条件要求主要课程平均积点达到2.0.

六、授予学位工学学士 七、考核 学生成绩考核严格按照《对外经济贸易大学本科生学分制管理办法》、《对外经济贸易大学本科生学籍管理办法》及《对外经济贸易大学学生成绩管理办法》的有关规定执行。 八、数据科学与大数据技术专业教学计划

大数据、数据科学和数据分析的定义

大数据、数据科学和数据分析的定义与应用 数据无处不在。现有的数字数据量正在快速增长,每两年翻一番,并改变我们的生活方式。一个由福布斯的文章指出,数据的增长速度比以往更快。到2020年,地球上每个人每秒将创建约1.7兆字节的新信息,这使得至少了解该领域的基础知识极为重要。毕竟,这是我们未来的所在。 以下我们将根据数据科学,大数据和数据分析的用途,用途,成为该领域专业人士所需的技能以及每个领域的薪资前景来区分数据科学,大数据和数据分析。 首先让我们开始理解这些概念是什么。 一、数据科学 在处理非结构化和结构化数据时,数据科学是一个涉及与数据清理,准备和分析相关的所有领域的领域。 数据科学是统计,数学,编程,解决问题,以巧妙的方式捕获数据,以不同的方式看待事物的能力以及清理,准备和对齐数据的活动的结合。 简而言之,它是尝试从数据中提取见解和信息时使用的技术的总括。 二、大数据 大数据是指无法用现有的传统应用程序有效处理的庞大数据量。大数据的处理始于未聚合的原始数据,通常是不可能将其存储在单台计算机的内存中的。 用来描述庞大数据量的流行语,无论是非结构化还是结构化的大数据,每天都会淹没企业。大数据是一种可以用来分析洞察力的东西,这些洞察力可以导致更好的决策和战略业务转移。

Gartner给出的大数据定义是:“大数据是高容量,高速或多变的信息资产,它们需要经济高效的创新信息处理方式,以增强洞察力,决策能力和过程自动化。” 三、数据分析 数据分析是检查原始数据以得出该信息的科学。 数据分析涉及应用算法或机械过程来得出见解,例如,遍历多个数据集以寻找彼此之间有意义的关联。 它被用于多个行业,以允许组织和公司做出更好的决策以及验证和反证现有的理论或模型。数据分析的重点在于推理,这是仅根据研究人员已经知道的结论得出结论的过程。四、数据科学的应用 (1)互联网搜索 搜索引擎利用数据科学算法在几秒钟内为搜索查询提供最佳结果。 (2)数位广告 整个数字营销频谱都使用数据科学算法-从显示横幅到数字广告牌。这是数字广告获得的点击率高于传统广告的平均原因。 (3)推荐系统 推荐系统不仅使从数十亿可用产品中查找相关产品变得容易,而且还增加了用户体验。 许多公司使用此系统根据用户的需求和信息的相关性来推广他们的产品和建议。这些建议基于用户以前的搜索结果。 五、大数据的应用 (1)金融服务大数据 信用卡公司,零售银行,私人财富管理咨询公司,保险公司,风险基金和机构投资银行将大数据用于其金融服务。它们之间的共同问题是存在于多个不

《数据科学与大数据通识导论》题库及答案-2019年温州市工程技术系列专业技术人员继续教育

1.数据科学的三大支柱与五大要素是什么? 答:数据科学的三大主要支柱为: Datalogy (数据学):对应数据管理 (Data management) Analytics (分析学):对应统计方法 (Statistical method) Algorithmics (算法学):对应算法方法 (Algorithmic method) 数据科学的五大要素: A-SATA模型 分析思维 (Analytical Thinking) 统计模型 (Statistical Model) 算法计算 (Algorithmic Computing) 数据技术 (Data Technology) 综合应用 (Application) 2.如何辨证看待“大数据”中的“大”和“数据”的关系? 字面理解 Large、vast和big都可以用于形容大小 Big更强调的是相对大小的大,是抽象意义上的大 大数据是抽象的大,是思维方式上的转变 量变带来质变,思维方式,方法论都应该和以往不同 计算机并不能很好解决人工智能中的诸多问题,利用大数据突破性解决了,其核心问题变成了数据问题。 3.怎么理解科学的范式?今天如何利用这些科学范式? 科学的范式指的是常规科学所赖以运作的理论基础和实践规范,是从事某一科学的科学家群体所共同遵从的世界观和行为方式。 第一范式:经验科学 第二范式:理论科学 第三范式:计算科学 第四范式:数据密集型科学 今天,是数据科学,统一于理论、实验和模拟 4.从人类整个文明的尺度上看,IT和DT对人类的发展有些什么样的影响和冲击? 以控制为出发点的IT时代正在走向激活生产力为目的的DT(Data Technology)数据时代。大数据驱动的DT时代 由数据驱动的世界观 大数据重新定义商业新模式 大数据重新定义研发新路径 大数据重新定义企业新思维 5.大数据时代的思维方式有哪些? “大数据时代”和“智能时代”告诉我们: 数据思维:讲故事→数据说话 总体思维:样本数据→全局数据 容错思维:精确性→混杂性、不确定性 相关思维:因果关系→相关关系 智能思维:人→人机协同(人 + 人工智能) 6.请列举出六大典型思维方式; 直线思维、逆向思维、跳跃思维、归纳思维、并行思维、科学思维

数据科学与大数据技术专业分析与报考建议

数据科学与大数据技术专业分析与报考建议大数据专业是很多学生和家长关注的热门专业,但大数据专业具体学什么、毕业主要做什么、适合什么学生报考, 很多学生和家长还是不太清楚。为便于学生和家长对数据科 学与大数据技术专业有更深入的了解,本文重点对这个专业 进行分析解读并提出专业报考建议。 1、认识大数据和大数据专业 先和大家说说什么是大数据?行业内普遍认可的是符合IBM提出的5V特点,即Volume(大量)、Velocity(高速)、 Variety(多样)、Value(低价值密度)、Veracity(真实性)的才 是大数据。对于我们一般非专业人来说,我们可以认为数据 量特别大、数据类别特别复杂的数据集就是大数据。 大数据有什么用途呢,用一个经典的“啤酒和尿布”的故事给大家解释一下。美国零售业巨头沃尔玛分析销售数据 时,发现了一个令人难以理解的现象:“啤酒”与“尿布” 两件看上去毫无关系的商品,会经常出现在同一个购物篮中。 经过调查分析发现,年轻的爸爸们在购买婴儿尿片时,常常 会顺便搭配几瓶啤酒来犒劳自己,商场于是尝试将啤酒和尿

布摆在一起,没想到这个举措居然使尿布和啤酒的销量都大幅增加了,这就是利用了大数据进行分析得出的结论。 大数据技术已经在我们的日常生产、生活、学习中得到了广泛应用,例如利用车辆定位数据分析道路拥堵情况,利用大量的医疗数据预测流行流行性感冒或者疫情趋势,互联网企业利用大数据技术对客户进行画像、精准营销……阿里巴巴创始人马云曾经说过,企业最宝贵的资源就是数据。 数据科学与大数据技术专业是工学门类计算机类下面的特设专业,专业代码080910T,自2016年在国内重点大学陆续开设,本科学制4年。数据科学与大数据技术专业主要培养具备扎实的数学与计算机基础、数据分析与建模能力、数据应用解决方案能力,能够在计算机、互联网以及大数据相关产业从事科学研究、数据分析、技术应用、技术管理与咨询等工作的专门技术人才。

2018版数据科学与大数据技术专业培养方案

2018版数据科学与大数据技术专业培养方案 专业简介: 2018年,我校数据科学与大数据专业将首次招生,招生规模预计为60人左右。该专业依托湖北大学与中科曙光共建的“大数据学院”,借助双方共同投入2000万构建的大数据专业实验室,与中科曙光联合开展人才培养。旨在培养具有大数据思维、运用大数据思维及分析应用技术、具有将领域知识与计算机技术和大数据技术融合、创新的能力,能够从事大数据研究和开发应用的高层次人才。本专业学生毕业后,能在统计部门、税务海关、公司企业以及金融保险机构等企事业单位从事从事大数据分析、大数据应用开发、大数据系统开发、大数据可视化以及大数据决策等工作,或继续攻读本学科及其相关学科的硕士学位研究生。 专业代码:080907 一、培养目标 本专业培养具有良好职业道德,具备系统的数学、人文与专业素养,较全面掌握大数据处理和分析的基本理论、基本方法和基本技术,具有数据采集、存储、处理、分析与展示的基本能力,能够运用所学知识解决实际问题,具备较高的综合业务素质、创新与实践能力、以及良好外语运用能力,能从事大数据研究、大数据分析、大数据应用开发、大数据系统开发、大数据可视化以及大数据决策等工作的应用型创新人才。 二、毕业要求 通过本科阶段学习,毕业生应达到如下的毕业要求(能力): 1、知识要求 (1)通识知识:具有人文社科、信息交流、法律与环境、社会与公共安全等知识,其中人文社科包括文学、外语、哲学、政治学、社会学、管理学、经济学、心理学等方面的常识或基本知识。 (2)自然科学知识:具有从事专业相关的项目工作所需的数学、物理等基础知识。 (3)学科基础知识:具有扎实的计算机基础知识、信息处理方法,统计分析,软件开发等相关学科的基本理论和基本知识。 (4)专业知识:熟悉大数据技术领域的基本理论和基本知识,熟练掌握分布式数据库

数据科学与大数据技术专业指导性培养方案

数据科学与大数据技术专业指导性培养方案 部门:计算机与信息学院 部门负责人:汪军 专业负责人:陶皖 审核:凤权 校长:王绍武 制订日期:年月 一、培养目标 ()学校培养目标:培养德智体美劳全面发展,具有社会责任感、创新精神、创业意识和实践能力的高素质应用型人才。 ()专业培养目标:满足数据科学与大数据应用的复合型人才需求,培养具有数学、统计、计算机基础知识与基本技能,掌握数据科学与大数据的基本理论和基本知识,熟练掌握大数据采集、存储、处理与分析、传输与应用等相关技术,具备大数据工程项目的系统集成能力、应用软件设计和开发能力,能从事各行业大数据分析、处理、服务、开发和利用工作,大数据系统集成与管理维护等各方面工作,亦可从事大数据研究、咨询、教育培训工作的高素质应用型人才。 二、基本要求 、热爱社会主义祖国,拥护中国共产党的领导,树立正确的人生观、世界观和价值观,具有良好的思想品德、社会公德和职业道德。 、掌握专业所需的基础科学理论知识,掌握本专业扎实的专业基础理论及必要的专业知识,具有本专业所必需的基本技能,具有良好的业务素养。 、掌握科学的思维方法,具有创新能力和较强实践能力,具有较强的终身学习能力、获取及处理信息能力。 、具有良好的心理素质和适应能力,掌握科学锻炼身体的基本技能,受到必要的军事训练,达到国家规定的大学生体育和军事训练合格标准。 、具有团队合作精神,良好的科学精神和职业道德。 、必须达到本培养计划规定的总学分要求和各类学分要求。

三、业务毕业要求 本专业培养掌握大数据科学与技术相关的基本理论和基本知识,系统地掌握数据科学与工程专业知识,具备大数据应用系统设计与开发的能力,以及一定的科研工作能力,达到知识、能力与素质的协调发展。 毕业生在知识、能力和素质等方面应达到如下具体要求: 1、工程知识:能够将数学、自然科学、数据科学与大数据技术基础知识用于解决复杂工程科学技术问题。 问题分析:具有解决数据科学与大数据技术领域复杂工程问题所需的专业知识,具备对复杂工程项目问题进行科学识别和提炼、定义和表达、技术分析和测试及运维管理的能力,以解决复杂工程项目问题。 设计开发解决方案:能够设计大数据开发和大数据分析领域的复杂工程问题的解决方案,设计和开发满足特定需求的系统,包括硬件和软件,并能够在设计环节中体现创新意识。 研究:能够基于数据科学原理,采用工程方法对复杂工程问题进行研究,包括需求分析、系统设计、编程实现、测试和维护,从而解决问题并进行评价。 使用现代工具:能够针对数据科学与大数据技术领域复杂工程问题,选择与使用恰当的编程语言、开发平台、开发工具以及各种辅助的质量保证、建模工具等,来解决工程中的问题,并能够理解其局限性,了解数据科学领域的前沿理论与发展现状和趋势。 工程与社会,环境与可持续发展:在解决数据科学与大数据技术领域复杂项目工程问题的同时,能够综合考虑安全与健康、经济、环境、文化、社会等制约因素,遵守法律法规与相关标准,理解和评价工程实践对其影响和应承担的责任,并能够理解和评价这些复杂项目工程实践对环境及社会可持续发展的影响。 职业规划:具有人文社会科学素养、社会责任感,能够在工程实践中理解并遵守软件行业的职业道德和规范,履行责任。 8、个人和团队:具有团队合作和在多学科背景环境中发挥个人作用的能力。 沟通:具有在数据科学与大数据技术领域复杂项目工程活动中与他人和社会进行有效沟通的能力,包括能够理解和撰写效果良好的项目报告和设计文档,进行有效的陈述发言;具有一定的国际视野和跨文化交流的能力。 10、项目管理:理解并掌握复杂项目工程的管理和经济决策方面的基本知识与方法,并能够应用于工程实践中。 11、终身学习:具有自主学习和终身学习的意识,具有不断学习和适应计算机技术快速发展的能力。

中南大学数据科学与大数据技术培养方案

数据科学与大数据技术专业本科培养方案 一、专业简介 本专业培养德、智、体、美全面发展,掌握数据科学基础知识、基本理论、基本方法,以及面向大数据应用的数学、统计学、计算机科学、自然科学与社会科学领域基础知识、数据建模、高效分析与处理、统计学推断的基本理论、基本方法和基本技能,熟悉自然科学和社会科学等应用领域中大数据应用特点,具备大数据采集、预处理、存储、分析、挖掘等行业核心技术的应用能力,以及卓越的专业能力和良好的外语水平,能够胜任大数据系统开发、系统运行与维护、大数据分析与挖掘等工作的专业型和研究型人才。本专业立足中南大学在医学与医药、轨道交通、有色金属工业领域的行业特色和优势实施人才培养,与知名IT公司建有校企人才合作培养基地。 二、培养目标 依据国家社会需求、行业产业需要、学校定位及发展目标,本专业致力于培养适应不断演化的经济与社会发展需要,注重大数据科学与工程领域与医学医药、轨道交通、有色金属行业交叉融合的复合型高级工程技术人才:能够适应行业大数据应用的发展需要,融会贯通数学与自然科学基础知识、计算机科学基础知识、大数据科学与工程专业知识,提出复杂大数据工程项目的系统性解决方案;能够跟踪大数据科学与工程领域的前沿技术,具备一定的大数据工程创新能力、大数据分析与价值挖掘能力,能够从事应用驱动的大数据产品的设计、开发和生产;具备良好的职业道德精神、社会责任感,理解法律、环境、发展的相互关系,在工程项目实施中坚持绿色发展理念、能够注重经济与社会效益的协调;具备健康的身心,拥有科学的人文精神、创新创业精神、团队精神,具备良好的人际沟通与协调能力、有效的工程项目管理能力;能够从全球视野思考问题,主动应对不断变化的国内外形势,具备自主学习能力、批判思维能力和国际交流能力。 三、培养要求 本专业毕业生在知识、能力和素质等方面应达到如下要求: 1、知识要求: ① 具备数学、自然科学、计算机科学基础知识、以及大数据工程专业知识,用于描述和分析大数据系统、大数据应用工程、大数据科学研究等相关复杂问题; ② 了解国家发展战略规划、产业政策、法律法规、正确认识、理解、评价大数据工程对经济、社会、环境、健康、安全、文化的影响,保持经济增长、社会和谐、环境友好的协调发展。

数据科学与大数据技术专业人才缺口达150万

数据科学与大数据技术专业人才缺口达150万 数据科学与大数据技术专业人才缺口达150万 日前,在教育部公布的高校新增专业名单中,有32所高校成为 第二批成功申请“数据科学与大数据技术”本科新专业的高校,加 上第一批的3所,共有35所获批。站在互联网“风口”上的大数据,直接催热了大学里的大数据专业。 从两次获批的”数据科学与大数据技术专业”名单中可以看出,该专业学制都为四年,授予工学学位或理学学位。 第一批成功申请该专业的高校共有3所,为北京大学、对外经济贸易大学及中南大学,于2016年2月获得教育部批准。 “大数据”专业学什么? 大数据领域三个大的技术方向: 方向一、Hadoop大数据开发方向 方向二、数据挖掘、数据分析&机器学习方向 方向三、大数据运维&云计算方向 精通任何方向之一者,均会“前(钱)”途无量。 三个方向中,大数据开发是基础。以Hadoop开发工程师为例,Hadoop入门月薪已经达到了8K以上,工作1年月薪可达到1.2W以上,具有2-3年工作经验的hadoop人才年薪可以达到30万—50万,一般需要大数据处理的公司基本上都是大公司,所以学习大数据专 业也是进大公司的捷径。 各地纷纷出台政策,支持大数据产业发展 福建

日前,厦门市政府发布了《厦门市促进大数据发展工作实施方案》,厦门市将以政府大数据开放开发为先导,推动大数据技术与 社会经济各领域应用的深度融合;以企业为主体,突破大数据关键技 术研发,着力推进数据汇集和发掘,深化大数据在各行业创新应用,重点锤炼若干优势产业环节,全面提升厦门市大数据产业发展水平。 山西 2017年3月16日,在北京国际会议中心举行的山西省大数据产 业发展主题峰会上,山西首次公布了《山西省大数据发展规划 (2017-2020年)》、《山西省促进大数据发展应用的若干政策》和《山西省促进大数据发展应用2017年行动计划》。到2020年,山 西大数据相关产业产值将实现1000亿元以上。 贵州 2017年3月16日,贵阳市旅发委出台《贵阳市大数据旅游领域 应用三年行动计划》征求意见稿。征求意见稿提出,创新旅游行业 管理和旅游公共服务模式,到2019年,全市打造智慧旅游示范企业 3至5个,引进和培育大数据旅游企业5至10家,旅游大数据相关 产业产值将达200亿元,旅游业态逐步向综合性、融合性转型。 广西 日前,广西印发《关于组织申报2017年工业云与工业大数据试 点示范项目的通知》。该省将积极推进工业云和工业大数据试点示 范应用,鼓励行业龙头企业建立面向行业的工业云和工业大数据试 点示范平台,实现安全保障有力,服务创新、技术创新和管理创新 协同推进的工业云计算和工业大数据发展格局,带动相关产业快速 发展。 大数据人才缺口达150万 各大高校紧锣密鼓启动大数据人才培养,缘于大数据时代催生的大量相关人才缺口。 全球顶尖管理咨询公司麦肯锡(McKinsey)出具的一份详细分析报告显示,预计到2018年,大数据或者数据工作者的岗位需求将激增,

基于大数据分析的计算材料科学教学研究

Technology Analysis 技术分析 DCW 83 数字通信世界 2019.09 1 引言 大数据这个词是伴随着全球数据爆炸式增长而提出的,它主要用于描述巨大的数据库。与传统数据库相比,大数据通常包括很多非结构化数据,并且需要更多实时性的分析。同时,大数据也带给我们来了新的挑战,如何有效的组织和管理数据成为目前急需解决的难题。大数据具有大量、多样、快速、有价值等特征,这为我们的学习科研带来了极大的帮助。 通过用大数据方法对材料进行研究属于计算材料学的范畴,计算材料科学是将材料科学与量子物理,力学,数学等学科相结合而形成的学科。材料的微观组织以及原子的排列顺序,晶格结构决定了材料的性能,通过了解材料从原子的排列到相的形成过程,微观组织的变化过程以及材料宏观性能与有效服役时间之间的相互关系,就可以更好的发现和制造新型材料。材料基因组计划主要通过将高效的材料理论计算与模拟工具、高通量快速的试验方法、材料性能数据库和信息学等相结合,建立高效的材料数据库。基于大数据方法的材料计算的方法主要包括第一性原理、分子动力学计算、CALPHAD 方法、蒙特卡罗法、元胞自动机法和有限元分析法等。通过基于大数据分析的计算材料科学的计算模拟,可以获得材料的热力学性能、力学性能、物理化学性能、材料的结构、点缺陷和位错迁移率、晶界能和晶界移动性、析出相尺寸等性质,从而更好的了解材料。 2 材料学大数据处理基础理论 基于大数据处理的计算材料学包括许多种方法,主要有第一 原理、分子动力学、蒙特卡洛、元胞自动机、相场法、有限元分析等。由于学生基础知识欠缺较多且授课时间有限,以上方法不能全部应用到教学实践中。因此,根据教学课程的实际情况以及不同的计算材料方法的不同特点,本文主要研究应用广泛的第一性原理和分子动力学的教学,使学生从原子,分子角度更好的理解材料学。 2.1 基于大数据分析的第一性原理方法 第一性原理计算又称为从头算法,是基于量子力学原理的大数据计算方法。第一性原理计算通常不使用经验参数,不依赖实验结果,通过空间群,电子质量,光速,质子中子质量等少数实验数据去做量子计算,通过求解薛定谔方程,从而推导出材料的热力学,电学及磁学等物理性质的方法。第一性原理方法的计算量非常大,因此很难在短时间内求解出精确解,只能借助一些近似的手段求解近似解。由于计算量的局限性,目前第一性原理计算仅适用于材料的微观尺度的计算,但第一性原理具有精确性和普适性的特点而成为目前材料学计算不可或缺的一种方法。 第一性原理方法结合高通量数据和高通量性能的计算方法可以很大程度降低模拟时间,模拟过程包括动力学、结构稳定性和表面稳定性等物性特点,结合密度泛函理论的第一性原理计算方法,可以同时描绘新材料数据迁移变化,进一步获得新材料的态密度、电子能态、电荷密度等信息。根据物理性能和化学性能参 数之间的联系,从理论上可以获得材料的热力参数、机械性能、光学性能、电磁性等基本物理化学参数。2.2 基于大数据分析的分子动力学 分子动力学是指将不同体系下特定的势能函数作用于由众多粒子构成的系统中,同时通过附加外界条件,如温度,压力等,对体系中的所有粒子求解牛顿方程,然后通过统计物理学的方法来得到宏观材料性质的过程。分子动力是学基于牛顿经典力学进行计算的,是一种确定的方法,通过给定粒子的初始坐标和初始速度,利用方程可以计算粒子后续每一时刻的状态。在实际计算过程中,计算机首先读取自行创建的初始体系结构,然后通过势能函数给体系中粒子施加作用力,从而计算出粒子的加速度,不断计算粒子的坐标以,速度等参量,最后通过选择不同的统计系综方法得到材料相关的热力学性质。目前,分子动力学广泛应用于固体材料的性质研究,如材料的弹性模量,热导率等计算。 分子动力中分子力场优化问题是建设材料分子动力学计算平台的关键问题,解决这一问题的方法包括遗传算法和粒子群算法。遗传算法的出现成为了科学研究领域常用的优化工具,近年来,随着大数据计算的兴起,使得遗传算法在数据处理方面也得到了有效的应用。遗传算法主要包括数学基础研究,算法结构研究,基因操作研究,参数选择研究等。。 3 基于大数据分析的计算材料学与教学实践的结合 基于大数据分析的计算材料学课程具有极强的实践性,能够将基础知识与材料模拟的具体模型联系在一起,从而使学生对计算材料科学产生浓厚的兴趣。通过将教学和计算材料结合,实现理论与模拟相结合的教学。在教学过程中通过设定具体的教学目标来培养学生的能力,同时与数据库筛选,结构优化,结果优化相结合,实现教学与科研的同步进行。使得学生积极融入课堂,最终取得更好的效果。 3.1 基于大数据分析的第一性原理与教学实践的结合 第一性原理作为基于大数据分析的计算材料科学的一种典型方法,人们开发了许多模拟平台,如Materials Studio ,Vasp 等。通过高通量方法筛选优化计算模型,解决了材料计算过程中计算耗时的部分问题,并通过高通量的原子结构优化、电子结构优化、弹性性能算法设计,能够更加准确快速的得到模拟结果。在教学过程中通过晶胞模型的建立、晶胞与原胞的转换、电子密度、能量曲线、态密度及能带结构等,使学生快速掌握原子结构模型的建立,并与材料的基础理论相结合,取得更好的效果。3.2 基于大数据分析的分子动力学与教学实践的结合 分子动力学是材料大数据处理中又一典型方法。针对分子动力学,科学研究者们开发了很多并行化计算平台,如Lammps ,Gaussian ,Amber 等。通过遗传算法进行分子力场优化之后进行计算,更加快速准确的得到模拟结果,然后通过可视化界面,可以直观地给学生展示温度变化过程中,分子的移动、(下转第94页) 基于大数据分析的计算材料科学教学研究 赵宇宏,杨文奎 (中北大学材料科学与工程学院,太原 030051) 摘要:以大数据分析为基础的计算材料学教学是材料教学中的重要组成部分。由于其具有数据库庞大、理论知识繁杂、模拟范围广等特点,使得基于大数据分析的计算材料学教学的开展与实施存在较大的困难。本文通过将基于大数据分析的第一性原理,分子动力学与教学实践相结合,使学生能够更加直观的从原子,分子的角度了解材料的变化。帮助学生筛选优化数据,学会理论分析的方法,掌握运用专业知识的能力,从而培养学生的科研能力和综合素质。 关键词:大数据分析;计算材料科学;第一性原理;分子动力学doi :10.3969/J.ISSN.1672-7274.2019.09.060中图分类号:TP391 文献标示码:A 文章编码:1672-7274(2019)09-0083-02

大数据(Big Data)科学问题研究

973计划信息领域战略调研材料之三 大数据(Big Data)科学问题研究 李国杰 1、前言 1.1 什么是大数据? 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合(维基百科定义) 用传统算法和数据库系统可以处理的海量数据不算“大数据”。 大数据= “海量数据”+“复杂类型的数据” 大数据的特性包括4个“V”: Volume,Variety,Velocity,Value ●数据量大:目前一般认为PB级以上数据看成是大数据; ●种类多:包括文档、视频、图片、音频、数据库数据等; ●速度快:数据生产速度很快,要求数据处理和I/O速度很快; ●价值大:对国民经济和社会发展有重大影响。 1.2目前大数据的规模 工业革命以后,以文字为载体的信息量大约每十年翻一番;1970年以后,信息量大约每三年就翻一番;如今,全球信息总量每两年就可以翻一番。2011年全球被创建和被复制的数据总量为1.8ZB (1021),其中 75%来自于个人。IDC认为,到下一个十年(2020年),全球所有IT部门拥有服务器的总量将会比现在多出10倍,所管理的数据将会比现在多出50倍。根据麦肯锡全球研究院(MGI)预测,到2020年,全球数据使用量预计将暴增44倍,达到35ZB(1ZB=1021Byte)。医疗卫生、地理信息、电子商务、影视娱乐、科学研究等行业,每天也都在创造着大量的数据。数据采集成本的下降推动了数据量的剧增,新的数据源和数据采集技术的出现大大增加了数据的类型,数据

类型的增加导致数据空间维度增加,极大地增加了大数据的复杂度。 1.3大数据公司的现状: ●Google 公司通过大规模集群和MapReduce 软件,每个月处理 的数据量超过400PB。 ●百度的数据量:数百PB,每天大约要处理几十PB数据,大多 要实时处理,如微博、团购、秒杀。 ●Facebook:注册用户超过8.5亿,每月上传10亿照片,每天生 成300TB日志数据 ●淘宝网:有3.7亿会员,在线商品8.8亿,每天交易数千万, 产生约20TB数据。 ●Yahoo!的数据量:Hadoop云计算平台有34个集群,超过3万 台机器,总存储容量超过100PB。 1.4 网络大数据的特点 (1)多源异构:描述同一主题的数据由不同的用户、不同的网站产生。网络数据有多种不同的呈现形式,如音视频、图片、文本等,导致网络数据格式上的异构性。 (2)交互性:不同于测量和传感获取的大规模科学数据,微博等社交网络兴起导至大量网络数据具有很强的交互性。 (3)时效性:在网络平台上,每时每刻都有大量新的网络数据发布,网络信息内容不断变化,导致了信息传播的时序相关性。(4)社会性:网络上用户根据自己的需要和喜好发布、回复或转发信息,因而网络数据成了对社会状态的直接反映。 (5)突发性:有些信息在传播过程中会在短时间内引起大量新的网络数据与信息的产生,并使相关的网络用户形成网络群体,体现出网络大数据以及网络群体的突发特性。 (6)高噪声:网络数据来自于众多不同的网络用户,具有很高的噪声。 2、国家重大战略需求

相关主题